使用Gensim减少Google的Word2Vec模型

神经

Google加载完整的经过预训练的word2vec模型非常耗时且繁琐,因此我想知道是否有机会删除某个频率以下的单词以使vocab计数减少到200k个单词。

我在gensim程序包中找到了Word2Vec方法来确定单词频率并再次保存该模型,但是在重新保存之前,我不确定如何从预先训练的模型中pop/ removevocab。我在KeyedVector classWord2Vec class这样的操作中找不到任何提示

https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py https://github.com/Rare-Technologies/gensim/blob/develop/gensim/models/keyedvectors.py

如何选择预训练的word2vec模型的词汇的子集?

五条魔

GoogleNews字向量文件格式不包含频率信息。但是,它似乎的排序频率大约较高,而频率较低。

并且,load_word2vec_format()提供了一个可选limit参数,参数仅从给定文件中读取许多矢量。

因此,以下应大致完成您所要求的操作:

goognews_wordecs = KeyedVectors.load_word2vec_format(`GoogleNews-vectors-negative300.bin.gz`, binary=True, limit=200000)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用 Gensim 训练 Word2vec 模型

培训期间的损失不会减少(Word2Vec,Gensim)

无法加载已保存的 gensim word2vec 模型

在Gensim中加载Word2Vec模型时出错

如何加快Gensim Word2vec模型的加载时间?

是否可以在deeplearning4j.word2vec中使用gensim word2vec模型?

如何使用gensim的word2vec模型和python计算句子相似度

使用 Gensim 4.0 微调预训练的 Word2Vec 模型

如何使用预先训练的单词向量创建gensim word2vec模型?

偶尔,如何使用在gensim中创建的自己的word2vec模型?

gensim:当我加载Google预训练的word2vec模型时,“ Doc2Vec”对象没有属性“ intersect_word2vec_format”

Gensim Word2Vec 使用太多内存

使用来自 Gensim Word2Vec 模型的权重作为另一个模型的起点

复制 gensim word2vec 的嵌入

gensim word2vec的培训时间

怎么把Gensim Word2Vec模型转换成FastText模型?

使用save_word2vec_format将gensim Word2vec模型以二进制格式.bin保存

Python Gensim从向量创建Word2Vec模型(在ndarray中)

在Gensim Word2Vec模型中匹配单词和向量

Gensim单词嵌入(Word2Vec和FastText)模型中的alpha值?

确保gensim针对相同数据的不同运行生成相同的Word2Vec模型

Python:Gensim Word2vec模型类中的“大小”参数是什么

为什么要在gensim word2vec中创建多个模型文件?

Gensim Word2Vec从预训练模型中选择次要词向量集

Gensim word2vec模型中的跟踪丢失和嵌入

可以以联合方式训练 gensim word2vec 模型吗?

训练 gensim word2vec 模型后单词不在词汇表中,为什么?

如何在gensim word2vec模型中尋找bigram相似度

Word2Vec:使用Gensim和Google新闻数据集-执行时间非常慢