怎么把Gensim Word2Vec模型转换成FastText模型?

乌玛(Uma Maheswara)Rao Pinninti

我有一个在庞大的语料库上训练过的Word2Vec模型。在将此模型用于神经网络应用程序时,我遇到了很多“词汇量不足”的单词。现在,我需要为这些“词汇量不足”的单词找到单词嵌入。因此,我进行了一次谷歌搜索,发现Facebook最近为此发布了FastText库。现在我的问题是如何将现有的word2vec模型或Keyedvectors转换为FastText模型?

五条魔

FastText能够通过将原始原始语料库中的片段包含在初始训练中来为子单词片段创建向量。然后,当遇到词汇外('OOV')单词时,它将使用其识别的片段为这些单词构建一个向量。对于具有反复出现的词根/前缀/后缀模式的语言,这导致矢量比对OOV单词的随机猜测要好。

然而,FastText过程并不会提取最终全词矢量这些子字载体。因此,没有简单的方法可以将全字向量转换为还包含子字向量的FastText模型。

可能存在一种可行的方法来近似相同的效果,例如,通过使用所有具有相同子词片段的已知词,然后提取一些要分配给该子词的共同平均值/矢量分量来实现。或将OOV单词建模为词汇中单词的平均数,这些单词与OOV单词的编辑距离很短。但是这些技术并不能完全像FastText那样,只是模糊地类似于它,它们的效果如何,或者可以通过调整来使其工作,将是一个实验性的问题。因此,获取现成的库不是问题。

Sebastien Ruder此博客中提到了一些具有其他OOV引导思想的研究论文

如果您需要FastText OOV功能,最好的方法是在与传统全字向量相同的语料库上从头训练FastText向量。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

Gensim单词嵌入(Word2Vec和FastText)模型中的alpha值?

Gensim word2vec模型输出1000维ndarray,但最大ndarray维数为32-怎么做?

无法加载已保存的 gensim word2vec 模型

使用Gensim减少Google的Word2Vec模型

在Gensim中加载Word2Vec模型时出错

如何加快Gensim Word2vec模型的加载时间?

使用 Gensim 训练 Word2vec 模型

怎么把darknet yolo模型转换成keras?

Python Gensim从向量创建Word2Vec模型(在ndarray中)

在Gensim Word2Vec模型中匹配单词和向量

确保gensim针对相同数据的不同运行生成相同的Word2Vec模型

Python:Gensim Word2vec模型类中的“大小”参数是什么

为什么要在gensim word2vec中创建多个模型文件?

如何使用gensim的word2vec模型和python计算句子相似度

使用 Gensim 4.0 微调预训练的 Word2Vec 模型

Gensim Word2Vec从预训练模型中选择次要词向量集

如何使用预先训练的单词向量创建gensim word2vec模型?

偶尔,如何使用在gensim中创建的自己的word2vec模型?

Gensim word2vec模型中的跟踪丢失和嵌入

可以以联合方式训练 gensim word2vec 模型吗?

训练 gensim word2vec 模型后单词不在词汇表中,为什么?

如何在gensim word2vec模型中尋找bigram相似度

是否可以在deeplearning4j.word2vec中使用gensim word2vec模型?

使用来自 Gensim Word2Vec 模型的权重作为另一个模型的起点

gensim:当我加载Google预训练的word2vec模型时,“ Doc2Vec”对象没有属性“ intersect_word2vec_format”

怎么把[] int转换成[2] int?

将 word2vec(gensim 实现)中的输出(上下文)嵌入保存为最终模型

使用save_word2vec_format将gensim Word2vec模型以二进制格式.bin保存

复制 gensim word2vec 的嵌入