使用word2vec时删除停用词

轮回

我已经使用gensim的word2vec库尝试了word2vec一段时间了。我的问题是我必须从输入文本中删除停用词吗?因为,根据我的初步实验结果,当我执行model.most_similar('someword')..?时,我会看到诸如“ of”,“ when” ..(停用词)之类的字词弹出

但是我没有看到任何地方提到用word2vec去除停用词是必要的吗?即使不删除停用词,word2vec是否也应该处理停用词?

必须进行哪些预处理(例如,对于主题建模,几乎必须删除停用词)?

Prashant Puri

我个人认为,删除停用词会带来更好的效果,请检查链接

同样,对于主题建模,您应该对文本进行预处理,然后再执行必须要做的事情,

  1. 删除停用词。
  2. 标记化。
  3. 词干和词法化

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章