OpenNLP中培训的“截止”和“迭代”是什么意思?

好奇

是什么意思cut-off,并iteration在OpenNLP培训?或自然语言处理。我只需要外行解释这些术语。据我认为,迭代是算法重复的次数,截止值是一个值,这样,如果某个文本的某个特定类别的值高于该截止值,它将被映射到该类别。我对吗?

齐普·李

正确,术语“迭代”是指迭代算法的一般概念,其中人们着手通过连续产生(希望越来越精确)近似的“理想”解决方案来解决问题。一般而言,迭代次数越多,结果将越准确(“更好”),但是当然必须执行更多的计算步骤。

术语“截止”(又称“截止频率”)用于指定减小n-gram语言模型(如OpenNLP使用的语言,例如其词性标记)的大小的方法。考虑以下示例:

Sentence 1 = "The cat likes mice."
Sentence 2 = "The cat likes fish."
Bigram model = {"the cat" : 2, "cat likes" : 2, "likes mice" : 1, "likes fish" : 1}

如果在此示例中,将截止频率设置为1,则n元语法模型将减小为

Bigram model = {"the cat" : 2, "cat likes" : 2}

也就是说,截止方法从语言模型中删除了训练数据中很少出现的n-gram。有时有必要减小n-gram语言模型的大小,因为甚至更大的语料(甚至三字母组,4-gram等)的数量都会激增。然后,在给定(n-1)个先前单词(或POS标签)的情况下,剩余信息(n元语法计数)可用于统计估计单词(或其POS标签)的概率。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章