我们显示句子计数是因为模型训练引擎在句子级别运行。txt 并行文件集的预期格式是每行一个句子。在上传过程中,我们确实运行了一个分句器,它可以识别句子标记的结尾并相应地中断。这就是为什么句子数并不总是与行数匹配的原因。句子是我们操作的单位,而不是输入文件的行。这就是为什么我们关注句子而不是台词。
这也是我们建议删除句子中的换行符的原因。换行符被视为句子标记的结尾,因此在句子中包含换行符会造成假断句。
针对您的第二个问题,我们确实对提交的大多数数据运行了句子对齐过程。如果上传的并行文件中的句子数量不一致,我们通常可以获得大部分句子对,只要句子相当接近即可。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句