使用Gensim减少Google的Word2Vec模型

neurix 发表于 Dev

神经

由Google加载完整的经过预训练的word2vec模型非常耗时且繁琐，因此我想知道是否有机会删除某个频率以下的单词以使vocab计数减少到200k个单词。

我在gensim程序包中找到了Word2Vec方法来确定单词频率并再次保存该模型，但是在重新保存之前，我不确定如何从预先训练的模型中pop/ removevocab。我在KeyedVector class和Word2Vec class这样的操作中找不到任何提示？

https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py https://github.com/Rare-Technologies/gensim/blob/develop/gensim/models/keyedvectors.py

如何选择预训练的word2vec模型的词汇的子集？

五条魔

GoogleNews字向量文件格式不包含频率信息。但是，它似乎的排序频率大约较高，而频率较低。

并且，load_word2vec_format()提供了一个可选limit参数，该参数仅从给定文件中读取许多矢量。

因此，以下应大致完成您所要求的操作：

goognews_wordecs = KeyedVectors.load_word2vec_format(`GoogleNews-vectors-negative300.bin.gz`, binary=True, limit=200000)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-5

我来说两句

0 条评论

登录后参与评论

使用 Gensim 训练 Word2vec 模型

培训期间的损失不会减少（Word2Vec，Gensim）

无法加载已保存的 gensim word2vec 模型

在Gensim中加载Word2Vec模型时出错

如何加快Gensim Word2vec模型的加载时间？

是否可以在deeplearning4j.word2vec中使用gensim word2vec模型？

如何使用gensim的word2vec模型和python计算句子相似度

使用 Gensim 4.0 微调预训练的 Word2Vec 模型

如何使用预先训练的单词向量创建gensim word2vec模型？

偶尔，如何使用在gensim中创建的自己的word2vec模型？

gensim：当我加载Google预训练的word2vec模型时，“ Doc2Vec”对象没有属性“ intersect_word2vec_format”

Gensim Word2Vec 使用太多内存

使用来自 Gensim Word2Vec 模型的权重作为另一个模型的起点

复制 gensim word2vec 的嵌入

gensim word2vec的培训时间

怎么把Gensim Word2Vec模型转换成FastText模型？

使用save_word2vec_format将gensim Word2vec模型以二进制格式.bin保存

Python Gensim从向量创建Word2Vec模型（在ndarray中）

在Gensim Word2Vec模型中匹配单词和向量

Gensim单词嵌入（Word2Vec和FastText）模型中的alpha值？

确保gensim针对相同数据的不同运行生成相同的Word2Vec模型

Python：Gensim Word2vec模型类中的“大小”参数是什么

为什么要在gensim word2vec中创建多个模型文件？

Gensim Word2Vec从预训练模型中选择次要词向量集

Gensim word2vec模型中的跟踪丢失和嵌入

可以以联合方式训练 gensim word2vec 模型吗？

训练 gensim word2vec 模型后单词不在词汇表中，为什么？

如何在gensim word2vec模型中尋找bigram相似度

Word2Vec：使用Gensim和Google新闻数据集-执行时间非常慢

TOP 榜单

文章

使用Gensim减少Google的Word2Vec模型

使用Gensim减少Google的Word2Vec模型

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID