word2vec - KeyError：“单词 X 不在词汇表中”

塔哈06

使用Word2Vec模块的实现为gensim我在纯文本文件中的句子构建词嵌入。尽管happy在词汇表中定义了这个词，但还是出现了错误KeyError: "word 'happy' not in vocabulary"。试图将给定的答案应用于类似问题，但没有奏效。因此，发布了我自己的问题。

这是代码：

try:
    data = []
    with open(TXT_PATH, 'r', encoding='utf-8') as txt_file:
        for line in txt_file:
            for part in line.split(' '):
                data.append(part.strip())

    # When I debug, both of the words 'happy' and 'birthday' exist in the variable 'data'
    word2vec = Word2Vec(data, min_count=5, size=10000, window=5, workers=4)

    # Print result
    word_1 = 'happy'
    word_2 = 'birthday'
    print(f'Similarity between {word_1} and {word_2} thru word2vec: {word2vec.similarity(word_1, word_2)}')
except Exception as err:
    print(f'An error happened! Detail: {str(err)}')

五条毛

当您从中收到这样的“不在词汇表中”错误时Word2Vec，您可以相信它：'happy'确实不在模型中。

即使您的视觉检查显示'happy'在您的文件中，它可能不会出现在模型中的几个原因包括：

它不会发生，至少min_count=5倍
该data格式不正确Word2Vec，所以它没有看到你期望看到的字眼。

看看data你的代码是如何准备的，它看起来像一个巨大的文件中所有单词的列表。Word2Vec而是期望一个序列，作为每个项目，该文本的单词列表。所以：不是一个单词列表，而是一个列表，其中每个项目都是一个单词列表。

如果您提供...

[
  'happy',
  'birthday',
]

......而不是预期......

[
  ['happy', 'birthday',],
]

...那些单字串将被视为字符列表，因此Word2Vec您会认为您想学习一堆单字符词的词向量。您可以通过查看词汇量是否看起来很小 ( len(model.wv)) 或者学习单词样本是否只是单字符单词 ('model.wv.index2entity[:10]`)来检查这是否影响了您的模型。

如果您以正确的格式提供一个单词，至少min_count作为训练数据的一部分，它会在模型中得到一个向量。

（另外：size=10000是通常范围 100-400 之外的一种选择方式。我从来没有见过一个项目使用如此高维的词向量，只有在你有大量词汇和训练的情况下才在理论上是合理的-set。具有较小词汇表/数据的超大向量可能会产生无用的过度拟合结果。）

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-28

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

word2vec - KeyError：“单词 X 不在词汇表中”

word2vec - KeyError：“单词 X 不在词汇表中”

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用