word2vec向量[gensim库]的“大小”是什么意思？

LuffyM 发表于 Dev

路飞

假设字典中有1000个单词（A1，A2，...，A1000）。据我所知，在单词嵌入或word2vec方法中，它旨在通过向量表示字典中的每个词，其中每个元素表示该词与字典中其余词的相似性。说每个向量应有999个维数还是每个word2vec向量的大小应为999是否正确？

但是，使用Gensim Python，我们可以为Word2vec修改“ size”参数的值，在这种情况下，假设size = 100。那么“ size = 100”是什么意思？如果我们提取A1的输出矢量，表示为（x1，x2，...，x100），在这种情况下x1，x2，...，x100代表什么？

五条魔

这是不认为“[word2vec]旨在通过，其中每个元素表示与在词典中的剩余字该单词的相似性的矢量表示字典中的每个单词”的情况。

相反，给定特定的目标维度（例如100），Word2Vec算法会逐渐训练100维的词向量，使其在预测附近单词的训练任务中越来越好。

这种迭代过程趋向于迫使与它们的相似度大致成比例的彼此“接近”的单词-甚至更进一步，在这个100维空间中的各种“方向”往往倾向于与人类可感知的语义类别相匹配。因此，著名的“ wv（king）-wv（man）+ wv（woman）〜= wv（queen）”示例通常可以工作，因为“男性/女性”和“忠诚度”是空间中模糊一致的区域/方向。

单独的尺寸并不代表任何意义。训练过程包括随机性，并且随着时间的推移，“无论如何”都会起作用。有意义的方向并非与尺寸轴完美对齐，而是在所有尺寸上成角度。（也就是说，您不会发现av[77]是一个类似于性别的维度。相反，如果您采用了数十个交替的男性和女性词对，并将它们的所有差取平均，则可能会发现大约100个表示性别方向的尺寸向量尺寸。）

您可以选择任何所需的“大小”，但是当您有足够的训练数据时，100-400是常见值。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-17

我来说两句

0 条评论

登录后参与评论

上一篇：在Visual Studio中的正则表达式无法找到并替换

TOP 榜单

文章

word2vec向量[gensim库]的“大小”是什么意思？

word2vec向量[gensim库]的“大小”是什么意思？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用