我在火车数据上训练了word2vec,但是火车数据中没有测试数据中的某些单词,那么如何生成与数据分布或数字范围相匹配的单词向量呢?
您可以获取词汇表中不常用单词的列表并将其平均,以获得未知单词的近似单词向量。
或者
假设您的目标未知单词isw
和其在上下文c-2 c-1 w c1 c2
中c-2
,其中c-1
,c1
和c2
是上下文单词。您可以将所有上下文单词的嵌入平均值作为未知单词的一个很好的近似值。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句