如何在Python中有效地计算巨大的矩阵乘法（tfidf功能）？

社会

我目前想使用python中的余弦相似度和Tfidf功能来计算全对文档相似度。我的基本方法如下：

from sklearn.feature_extraction.text import TfidfVectorizer
#c = [doc1, doc2, ..., docn]
vec = TfidfVectorizer()
X = vec.fit_transform(c)
del vec
Y = X * X.T

工作正常，但不幸的是，不适用于我的大型数据集。X的尺寸为(350363, 2526183)，因此输出矩阵Y应该具有(350363, 350363)。由于tfidf功能，X非常稀疏，因此很容易装入内存（仅2GB左右）。但是，乘法在运行一段时间后给了我一个内存错误（即使内存未满，但我认为scipy非常聪明，以至于无法预期内存使用情况）。

我已经尝试过使用dtypes并没有成功。我还确保numpy和scipy链接了它们的BLAS库-但这不会对csr_matrix点功能产生影响，因为它是在C语言中实现的。我想也许会使用诸如memmap之类的东西，但是我不确定那。

有谁知道如何最好地解决这个问题？

凯尔·卡斯特纳（Kyle Kastner）

您可能需要查看random_projectionscikit-learn中的模块。在约翰逊Lindenstrauss引理说，随机投影矩阵是保证维持成对距离高达一些宽容eta，这是一个超参数，当你计算出所需的随机投影的数量。

长话短说，SparseRandomProjection 这里看到的scikit-learn类是为您执行此操作的转换器。如果在X上运行它，vec.fit_transform您应该会看到功能尺寸的相当大的减少。

的公式sklearn.random_projection.johnson_lindenstrauss_min_dim表明，要保留高达10％的公差，您只需要johnson_lindenstrauss_min_dim(350363, .1)10942个特征。这是一个上限，因此您可以花更少的钱就可以逃脱。即使是1％的公差，也只需要johnson_lindenstrauss_min_dim(350363, .01)1028192个功能，这仍然比您现在拥有的功能要少得多。

编辑：尝试简单-如果您的数据是dtype ='float64'，请尝试使用'float32'。仅此一项就可以节省大量空间，尤其是在您不需要双精度的情况下。

如果问题是您也不能在内存中存储“最终矩阵”，我建议您在HDF5Store中使用数据（如在使用pytables的熊猫中所见）。该链接具有一些不错的入门代码，您可以迭代地计算点乘积的大块并写入磁盘。我最近在一个45GB数据集的项目中广泛使用了此方法，如果您决定采用这种方法，可以提供更多帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-23

我来说两句

0 条评论

登录后参与评论

上一篇：getPaginationCount（）函数在Laravel的雄辩ORM中不起作用

TOP 榜单

文章

如何在Python中有效地计算巨大的矩阵乘法（tfidf功能）？

如何在Python中有效地计算巨大的矩阵乘法（tfidf功能）？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath