如何访问gensim word2vec中的输出嵌入（输出矢量）？

Suin SEO

我想使用word2vec的输出嵌入（例如本文中的内容）（通过双重单词嵌入来提高文档排名）。

我知道输入向量在syn0中，如果负采样，则输出向量在syn1和syn1neg中。

但是当我用输出向量计算most_like时，由于删除了syn1或syn1neg，我在某些范围内得到了相同的结果。

这就是我得到的。

IN[1]: model = Word2Vec.load('test_model.model')

IN[2]: model.most_similar([model.syn1neg[0]])

OUT[2]: [('of', -0.04402521997690201),
('has', -0.16387106478214264),
('in', -0.16650712490081787),
('is', -0.18117375671863556),
('by', -0.2527652978897095),
('was', -0.254993200302124),
('from', -0.2659570872783661),
('the', -0.26878535747528076),
('on', -0.27521973848342896),
('his', -0.2930959463119507)]

但是另一个syn1neg numpy向量已经是类似的输出。

IN[3]: model.most_similar([model.syn1neg[50]])

OUT[3]: [('of', -0.07884830236434937),
('has', -0.16942456364631653),
('the', -0.1771494299173355),
('his', -0.2043554037809372),
('is', -0.23265135288238525),
('in', -0.24725285172462463),
('by', -0.27772971987724304),
('was', -0.2979024648666382),
('time', -0.3547973036766052),
('he', -0.36455872654914856)]

我想获得训练期间保留的输出numpy数组（是否为负）。

让我知道如何访问纯syn1或syn1neg或代码，或者某些word2vec模块可以获取输出嵌入。

五条魔

对于负采样，syn1neg权重是每个字的权重，其顺序与相同syn0。

您的两个示例给出相似结果的事实并不一定表明有什么错误。默认情况下，单词是按频率排序的，因此，早期单词（包括位置0和50的单词）是非常常见的单词，具有基于共现的含义（可能彼此接近）。

选择一个具有更独特含义的中频单词，您可能会得到更有意义的结果（如果您的语料库/设置/需求足够类似于“双词嵌入”论文的内容）。例如，您可能要比较：

model.most_similar('cousin')

...与...

model.most_similar(positive=[model.syn1neg[model.vocab['cousin'].index])

但是，在所有情况下，现有most_similar()方法仅在syn0-论文术语的“ IN”向量中查找相似向量。因此，我相信上面的代码只会真正计算出论文所称的“ OUT-IN”相似度：列出了哪些IN向量与给定的OUT向量最相似。实际上，他们似乎吹捧相反的“ IN-OUT”相似性，因为它很有用。（那是与给定的IN向量最相似的OUT向量。）

gensim的最新版本引入了一个KeyedVectors类，用于表示一组由字词键控的单词向量，与特定的Word2Vec模型或其他训练方法分开。你可能会创建一个额外的KeyedVectors实例，它取代了通常syn0用syn1neg，走出名单载体类似于目标向量（和由此计算前n“IN-OUT”相似，甚至“OUT-OUT”相似）。

例如，这可能有效（我没有测试过）：

outv = KeyedVectors()
outv.vocab = model.wv.vocab  # same
outv.index2word = model.wv.index2word  # same
outv.syn0 = model.syn1neg  # different
inout_similars = outv.most_similar(positive=[model['cousin']])

syn1仅在使用分层抽样时才存在，并且不清楚单个单词的“输出嵌入”将在哪里。（有多个输出节点对应于预测一个单词，并且它们都需要更接近各自的正确0/1值才能预测单个单词。因此，与`syn1neg不同，没有一个地方可以读取一个向量，这意味着一个单词的输出。您可能必须计算/逼近一些hidden-> output权重集合，这会将这些多个输出节点驱动到正确的值。）

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-5

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

如何访问gensim word2vec中的输出嵌入（输出矢量）？

如何访问gensim word2vec中的输出嵌入（输出矢量）？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u