我已经使用gensim的word2vec库尝试了word2vec一段时间了。我的问题是我必须从输入文本中删除停用词吗?因为,根据我的初步实验结果,当我执行model.most_similar('someword')
..?时,我会看到诸如“ of”,“ when” ..(停用词)之类的字词弹出。
但是我没有看到任何地方提到用word2vec去除停用词是必要的吗?即使不删除停用词,word2vec是否也应该处理停用词?
必须进行哪些预处理(例如,对于主题建模,几乎必须删除停用词)?
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句