word2vec向量[gensim库]的“大小”是什么意思?

路飞

假设字典中有1000个单词(A1,A2,...,A1000)。据我所知,在单词嵌入或word2vec方法中,它旨在通过向量表示字典中的每个词,其中每个元素表示该词与字典中其余词的相似性。说每个向量应有999个维数还是每个word2vec向量的大小应为999是否正确?

但是,使用Gensim Python,我们可以为Word2vec修改“ size”参数的值,在这种情况下,假设size = 100。那么“ size = 100”是什么意思?如果我们提取A1的输出矢量,表示为(x1,x2,...,x100),在这种情况下x1,x2,...,x100代表什么?

五条魔

这是认为“[word2vec]旨在通过,其中每个元素表示与在词典中的剩余字该单词的相似性的矢量表示字典中的每个单词”的情况。

相反,给定特定的目标维度(例如100),Word2Vec算法会逐渐训练100维的词向量,使其在预测附近单词的训练任务中越来越好。

这种迭代过程趋向于迫使与它们的相似度大致成比例的彼此“接近”的单词-甚至更进一步,在这个100维空间中的各种“方向”往往倾向于与人类可感知的语义类别相匹配。因此,著名的“ wv(king)-wv(man)+ wv(woman)〜= wv(queen)”示例通常可以工作,因为“男性/女性”和“忠诚度”是空间中模糊一致的区域/方向。

单独的尺寸并不代表任何意义。训练过程包括随机性,并且随着时间的推移,“无论如何”都会起作用。有意义的方向并非与尺寸轴完美对齐,而是在所有尺寸上成角度。(也就是说,您不会发现av[77]是一个类似于性别的维度。相反,如果您采用了数十个交替的男性和女性词对,并将它们的所有差取平均,则可能会发现大约100个表示性别方向的尺寸向量尺寸。)

您可以选择任何所需的“大小”,但是当您有足够的训练数据时,100-400是常见值。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

word2vec上nce_weights的stddev是什么意思?

Python:Gensim Word2vec模型类中的“大小”参数是什么

gensim word2vec访问输入/输出向量

Gensim的word2vec返回尴尬的向量

gensim word2vec 中的“corpus_count”是什么?

Gensim的word2vec中的层大小

word2vec 中的词汇大小与向量大小

在word2vec中互为标量倍数的单词向量之间预期的语义关系是什么?

CBOW word2vec 中特定单词的向量是什么?

复制 gensim word2vec 的嵌入

gensim word2vec的培训时间

Word2vec向量的长度具有什么含义?

word2vec 包中函数 word2vec 的输入文件格式是什么?

Python Gensim从向量创建Word2Vec模型(在ndarray中)

在Gensim Word2Vec模型中匹配单词和向量

Gensim Word2Vec从预训练模型中选择次要词向量集

如何使用预先训练的单词向量创建gensim word2vec模型?

如何在Gensim Word2Vec中手动更改单词的向量尺寸

如何从gensim Word2Vec嵌入向量中句子嵌入?

如何手动将单词和向量添加到Word2vec gensim?

使用 gensim word2vec 沿输出或输入向量查找单词相似性?

Word2Vec的随机方面是什么?

Vec <T>是什么意思?

如何加载 word2vec 向量?

Gensim Word2Vec 训练语料库中的重复

尽管设置了“max_vocab_size”,gensim word2vec 词汇量大小仍会随着语料库的增长而上下波动

为什么要在gensim word2vec中创建多个模型文件?

gensim word2vec 非常大,有什么方法可以使文件变小?

gensim的Word2Vec为什么不能识别'compute_loss'关键字?