word2vec 中的词汇大小与向量大小

阿尔沙德·谢克 |

我有一个包含 6200 个句子的数据(它们是“sign_or_symptoms 诊断 Pathologic_function”形式的三元组),但是这些句子中的唯一词(词汇)是 181,在如此低的句子上训练模型的合适向量大小是多少词汇。根据词汇量大小,是否有关于适当向量大小的资源或研究?

五条毛

最佳实践是根据您真正的最终任务对其进行测试。

对于 word2vec 来说,这是一个非常小的语料库和词汇量。它可能根本不合适,因为它从大量不同的训练集获得力量。

但从好的方面来说,您可以非常快速地使用不同的参数进行大量试验!

您绝对不能使用与词汇量 (181) 一样大的向量维度,甚至不能使用非常接近的维度。在这种情况下,模型肯定会“过拟合”——只是孤立地记住每个词的影响,没有必要的“拔河”权衡,迫使词彼此更近/更远,这创造了 word2vec 模型的特殊价值/通用性。

我非常宽松的经验法则是调查词汇量平方根周围的维度。而且,4 的倍数往往在底层数组例程中效果最好(至少在性能至关重要时,对于如此小的数据集可能不是这样)。所以我会先尝试 12 或 16 个维度,然后根据对您的实际任务的一些定量质量评估来探索其他较低/较高的值。

但同样,您正在使用如此小的数据集,除非您的“句子”实际上很长,否则 word2vec 对没有更多数据的您来说可能是一种非常弱的技术。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章