OpenNLP中培训的“截止”和“迭代”是什么意思？

好奇

是什么意思cut-off，并iteration在OpenNLP培训？或自然语言处理。我只需要外行解释这些术语。据我认为，迭代是算法重复的次数，截止值是一个值，这样，如果某个文本的某个特定类别的值高于该截止值，它将被映射到该类别。我对吗？

齐普·李

正确，术语“迭代”是指迭代算法的一般概念，其中人们着手通过连续产生（希望越来越精确）近似的“理想”解决方案来解决问题。一般而言，迭代次数越多，结果将越准确（“更好”），但是当然必须执行更多的计算步骤。

术语“截止”（又称“截止频率”）用于指定减小n-gram语言模型（如OpenNLP使用的语言，例如其词性标记）的大小的方法。考虑以下示例：

Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}

如果在此示例中，将截止频率设置为1，则n元语法模型将减小为

Bigram model = {"the cat" : 2, "cat likes" : 2}

也就是说，截止方法从语言模型中删除了训练数据中很少出现的n-gram。有时有必要减小n-gram语言模型的大小，因为甚至更大的语料（甚至三字母组，4-gram等）的数量都会激增。然后，在给定（n-1）个先前单词（或POS标签）的情况下，剩余信息（n元语法计数）可用于统计估计单词（或其POS标签）的概率。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-28

我来说两句

0 条评论

登录后参与评论

上一篇：如何从R中少于2个唯一级别的数据框中删除列

TOP 榜单

文章

OpenNLP中培训的“截止”和“迭代”是什么意思？

OpenNLP中培训的“截止”和“迭代”是什么意思？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次