Microsoft 翻译引擎定制：并行 txt 文件

n0n4m3 发表于 Dev

n0n4m3

我正在尝试为日语执行一些 NMT 引擎自定义，但在上传并行txt文件时遇到了一些困难。我收集了 10k 个平行句子，并将它们放入两个 txt 文件中：

正如指南所建议的那样，我也很小心地删除了包含\n和\r字符的句子，但是在上传时我得到了以下信息：

怎么了？

斯科特G

我们显示句子计数是因为模型训练引擎在句子级别运行。txt 并行文件集的预期格式是每行一个句子。在上传过程中，我们确实运行了一个分句器，它可以识别句子标记的结尾并相应地中断。这就是为什么句子数并不总是与行数匹配的原因。句子是我们操作的单位，而不是输入文件的行。这就是为什么我们关注句子而不是台词。

这也是我们建议删除句子中的换行符的原因。换行符被视为句子标记的结尾，因此在句子中包含换行符会造成假断句。

针对您的第二个问题，我们确实对提交的大多数数据运行了句子对齐过程。如果上传的并行文件中的句子数量不一致，我们通常可以获得大部分句子对，只要句子相当接近即可。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-1

我来说两句

0 条评论

登录后参与评论

上一篇：从文件中的字符串中提取特定标记并导出到其他文件

将并行数组与txt文件分开

Python在txt文件中合并行

从bash中的txt文件多次读取（并行处理）

从bash中的txt文件中多次读取（并行处理）

Microsoft JET数据库引擎错误：“正在使用文件”

逗号分隔的txt文件与txt文件-续

带有.txt文件的文件？

txt文件到zip文件

从 TXT 文件创建 CSV 文件

.txt文件找不到？

在线阅读txt文件

更改txt文件的编码

从github下载txt文件

爆炸的txt文件PHP

Arraylist到txt文件

返回.txt文件内容

textscan txt文件-Matlab

写入.txt文件？

如何读取txt文件

用“”解析.txt文件

从txt文件下载链接

从txt文件读取变量

从.txt文件获取数据

写入txt文件java

将“ <”或“>”写入.txt文件

调整txt文件的内容

读取文件.txt C ++

txt文件的结构异常

txt文件中的参数

TOP 榜单

文章

Microsoft 翻译引擎定制：并行 txt 文件

Microsoft 翻译引擎定制：并行 txt 文件

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局