怎么把Gensim Word2Vec模型转换成FastText模型？

乌玛（Uma Maheswara）Rao Pinninti

我有一个在庞大的语料库上训练过的Word2Vec模型。在将此模型用于神经网络应用程序时，我遇到了很多“词汇量不足”的单词。现在，我需要为这些“词汇量不足”的单词找到单词嵌入。因此，我进行了一次谷歌搜索，发现Facebook最近为此发布了FastText库。现在我的问题是如何将现有的word2vec模型或Keyedvectors转换为FastText模型？

五条魔

FastText能够通过将原始原始语料库中的片段包含在初始训练中来为子单词片段创建向量。然后，当遇到词汇外（'OOV'）单词时，它将使用其识别的片段为这些单词构建一个向量。对于具有反复出现的词根/前缀/后缀模式的语言，这导致矢量比对OOV单词的随机猜测要好。

然而，FastText过程并不会提取最终全词矢量这些子字载体。因此，没有简单的方法可以将全字向量转换为还包含子字向量的FastText模型。

可能存在一种可行的方法来近似相同的效果，例如，通过使用所有具有相同子词片段的已知词，然后提取一些要分配给该子词的共同平均值/矢量分量来实现。或将OOV单词建模为词汇中单词的平均数，这些单词与OOV单词的编辑距离很短。但是这些技术并不能完全像FastText那样，只是模糊地类似于它，它们的效果如何，或者可以通过调整来使其工作，将是一个实验性的问题。因此，获取现成的库不是问题。

Sebastien Ruder在此博客中提到了一些具有其他OOV引导思想的研究论文。

如果您需要FastText OOV功能，最好的方法是在与传统全字向量相同的语料库上从头训练FastText向量。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-21

我来说两句

0 条评论

登录后参与评论

上一篇：有无序集合的Python数据类型吗？

TOP 榜单

文章

怎么把Gensim Word2Vec模型转换成FastText模型？

怎么把Gensim Word2Vec模型转换成FastText模型？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath