给定bigram probabilities
文本中的单词,将如何计算trigram probabilities
?
举例来说,如果我们知道P(dog cat) = 0.3
和P(cat mouse) = 0.2
我们如何找到的可能性P(dog cat mouse)
?
谢谢!
在下文中,我将三字母组视为三个随机变量A,B,C
。所以dog cat horse
会A=dog, B=cat, C=horse
。
使用链式规则:P(A,B,C) = P(A,B) * P(C|A,B)
。现在,如果您想保持准确,就会陷入困境。
您可以做的是假设C
与A
给定无关B
。然后它认为P(C|A,B) = P(C|B)
。和P(C|B) = P(C,B) / P(B)
,您应该能够从三叉戟频率中计算出。请注意,在您的情况下P(C|B)
,实际上应该是C
跟随a的概率B
,因此它是BC
除以a的概率B*
。
综上所述,在使用条件独立性假设时:
P(ABC) = P(AB) * P(BC) / P(B*)
为了进行计算,P(B*)
您必须总结以开头的所有三字组的概率B
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句