假设字典中有1000个单词(A1,A2,...,A1000)。据我所知,在单词嵌入或word2vec方法中,它旨在通过向量表示字典中的每个词,其中每个元素表示该词与字典中其余词的相似性。说每个向量应有999个维数还是每个word2vec向量的大小应为999是否正确?
但是,使用Gensim Python,我们可以为Word2vec修改“ size”参数的值,在这种情况下,假设size = 100。那么“ size = 100”是什么意思?如果我们提取A1的输出矢量,表示为(x1,x2,...,x100),在这种情况下x1,x2,...,x100代表什么?
这是不认为“[word2vec]旨在通过,其中每个元素表示与在词典中的剩余字该单词的相似性的矢量表示字典中的每个单词”的情况。
相反,给定特定的目标维度(例如100),Word2Vec算法会逐渐训练100维的词向量,使其在预测附近单词的训练任务中越来越好。
这种迭代过程趋向于迫使与它们的相似度大致成比例的彼此“接近”的单词-甚至更进一步,在这个100维空间中的各种“方向”往往倾向于与人类可感知的语义类别相匹配。因此,著名的“ wv(king)-wv(man)+ wv(woman)〜= wv(queen)”示例通常可以工作,因为“男性/女性”和“忠诚度”是空间中模糊一致的区域/方向。
单独的尺寸并不代表任何意义。训练过程包括随机性,并且随着时间的推移,“无论如何”都会起作用。有意义的方向并非与尺寸轴完美对齐,而是在所有尺寸上成角度。(也就是说,您不会发现av[77]
是一个类似于性别的维度。相反,如果您采用了数十个交替的男性和女性词对,并将它们的所有差取平均,则可能会发现大约100个表示性别方向的尺寸向量尺寸。)
您可以选择任何所需的“大小”,但是当您有足够的训练数据时,100-400是常见值。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句