Microsoft 翻译引擎定制:并行 txt 文件

n0n4m3

我正在尝试为日语执行一些 NMT 引擎自定义,但在上传并行txt文件时遇到了一些困难我收集了 10k 个平行句子,并将它们放入两个 txt 文件中:

使用 <code>wc -l</code> 的行数

正如指南所建议的那样,我也很小心地删除了包含\n\r字符的句子,但是在上传时我得到了以下信息:

上传行数不匹配

怎么了?

斯科特G

我们显示句子计数是因为模型训练引擎在句子级别运行。txt 并行文件集的预期格式是每行一个句子。在上传过程中,我们确实运行了一个分句器,它可以识别句子标记的结尾并相应地中断。这就是为什么句子数并不总是与行数匹配的原因。句子是我们操作的单位,而不是输入文件的行。这就是为什么我们关注句子而不是台词。

这也是我们建议删除句子中的换行符的原因。换行符被视为句子标记的结尾,因此在句子中包含换行符会造成假断句。

针对您的第二个问题,我们确实对提交的大多数数据运行了句子对齐过程。如果上传的并行文件中的句子数量不一致,我们通常可以获得大部分句子对,只要句子相当接近即可。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章