SpaCy：如何加载Google新闻word2vec向量？

103

贾斯珀：

我尝试了几种加载Google新闻word2vec向量（https://code.google.com/archive/p/word2vec/）的方法：

en_nlp = spacy.load('en',vector=False)
en_nlp.vocab.load_vectors_from_bin_loc('GoogleNews-vectors-negative300.bin')

上面给出：

MemoryError: Error assigning 18446744072820359357 bytes

我也尝试过使用.gz压缩向量；或通过将它们与gensim一起加载并保存为新格式：

from gensim.models.word2vec import Word2Vec
model = Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
model.save_word2vec_format('googlenews2.txt')

然后，此文件在每行上包含单词及其单词向量。我试图用它们加载：

en_nlp.vocab.load_vectors('googlenews2.txt')

但它返回“ 0”。

正确的方法是什么？

更新：

我可以将自己创建的文件加载到spacy中。我在每行上使用带有“字符串0.0 0.0 ....”的test.txt文件。然后使用.bzip2将这个txt压缩到test.txt.bz2。然后，我创建一个spacy兼容的二进制文件：

spacy.vocab.write_binary_vectors('test.txt.bz2', 'test.bin')

我可以载入spacy：

nlp.vocab.load_vectors_from_bin_loc('test.bin')

这可行！但是，当我对googlenews2.txt执行相同的过程时，出现以下错误：

lib/python3.6/site-packages/spacy/cfile.pyx in spacy.cfile.CFile.read_into (spacy/cfile.cpp:1279)()

OSError:

贾斯珀：

对于spacy 1.x，请将Google新闻矢量加载到gensim中并转换为新格式（.txt中的每一行都包含一个矢量：string，vec）：

from gensim.models.word2vec import Word2Vec
from gensim.models import KeyedVectors
model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
model.wv.save_word2vec_format('googlenews.txt')

删除.txt的第一行：

tail -n +2 googlenews.txt > googlenews.new && mv -f googlenews.new googlenews.txt

将txt压缩为.bz2：

bzip2 googlenews.txt

创建与SpaCy兼容的二进制文件：

spacy.vocab.write_binary_vectors('googlenews.txt.bz2','googlenews.bin')

将googlenews.bin移至python环境的/lib/python/site-packages/spacy/data/en_google-1.0.0/vocab/googlenews.bin。

然后加载单词向量：

import spacy
nlp = spacy.load('en',vectors='en_google')

或稍后再加载它们：

nlp.vocab.load_vectors_from_bin_loc('googlenews.bin')

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-08-8

我来说两句

0 条评论

登录后参与评论

如何加载 word2vec 向量？

如何使用Google新闻Word2Vec获取每个文档的载体

如何从word2vec保存的模型中加载certrain词向量？

如何获取未知单词的随机word2vec向量？

word2vec如何从向量中获取单词？

如何在Python中生成Word2vec向量？

如何加快Gensim Word2vec模型的加载时间？

如何在 doc2vec 模型中使用预训练的 word2vec 向量？

Word2Vec：使用Gensim和Google新闻数据集-执行时间非常慢

Spacy与Word2Vec中的文档相似性

Word2Vec如何确保反义词在向量空间中分开

如何使用word2vec查找与向量最接近的词

如何使用Word2Vec为单个单词获取单个向量？

如何使用预先训练的单词向量创建gensim word2vec模型？

如何在Gensim Word2Vec中手动更改单词的向量尺寸

在word2vec中的每次训练迭代后如何获得向量？

如何从gensim Word2Vec嵌入向量中句子嵌入？

如何手动将单词和向量添加到Word2vec gensim？

如何下载word2vec？

如何评估Word2Vec模型

如何查看word2vec模型

Word2vec向量的长度具有什么含义？

gensim word2vec访问输入/输出向量

Gensim的word2vec返回尴尬的向量

word2vec 向量的 Keras 输入规范

word2vec 中的词汇大小与向量大小

如何加载预训练的Word2vec MODEL文件并重新使用它？

如何在不获取AttributeError的情况下使用Gensim加载Word2vec？

加载word2vec（gensim）时如何解决开漏键错误？

TOP 榜单

文章

SpaCy：如何加载Google新闻word2vec向量？

SpaCy：如何加载Google新闻word2vec向量？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用