计算两个相同形状矩阵的行之间的余弦相似度的最快方法是什么

特伦斯·JY

例如，我有两个二维数组，如下所示：

X = array([[4, 4, 4, 2],
   [3, 1, 2, 2],
   [1, 3, 3, 3],
   [1, 3, 1, 2]])
Y = array([[2, 1, 1, 4],
   [2, 1, 1, 1],
   [4, 1, 4, 4],
   [4, 2, 3, 4]])

我想计算 X 和 Y 行之间的余弦相似度。例如

def cos(feats1, feats2):
    """
    Computing cosine distance
    For similarity
    """
    cos = np.dot(feats1, feats2) / (np.linalg.norm(feats1) * np.linalg.norm(feats2))
    return cos

for i in range(a.shape[0]):
    print(cos(a[i,:],b[i,:]))

现在，我正在使用 for 循环来计算向量之间的 cos 距离。但是 X 和 Y 的大小就像 (1200000000, 512)，仅使用 for 循环计算需要很长时间。

我的问题是如何利用代数和 numpy 的力量来加速这个过程。

或者可以更有效地执行此计算的任何其他方法。

谢谢

亚瑟布里克

可能在一行中：诀窍是只指定执行规范和点积的轴。

X = np.random.randn(3,2)
Y = np.random.randn(3,2)
(X * Y).sum(axis=1) / np.linalg.norm(X, axis=1) / np.linalg.norm(Y, axis=1)

第一部分，(X * Y).sum(axis=1)负责计算点积。axis=1指定我们在列上执行点积，即为每一行（数据点）获取一个结果。

第二部分使用相同的方法简单地计算每个向量的范数。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-05-22

我来说两句

0 条评论

登录后参与评论

上一篇：Angular 11 - mar-grid-list 在一个组件中无法识别，但在其他几个组件中工作

给定稀疏矩阵数据，Python中最快的计算余弦相似度的方法是什么？

如何计算两个张量之间的余弦相似度？

计算Keras中两个张量之间的余弦相似度

计算 lambda 层中两个张量向量之间的余弦相似度？

如何计算两个向量的余弦相似度？

计算R中两个单词的余弦相似度？

合并两个 CountVectorizers 并计算余弦相似度

列表中两个词之间的余弦相似度

计算两个数组之间的余弦相似度的正确方法？

我有两个公式计算“余弦相似度”，有什么区别？

如何编写一个返回两个文档之间余弦相似度的方法

用Python（和Cython）计算两个矩阵的点积最快的方法是什么

在R中两个瘦高个矩阵之间计算按行点积的最快方法

计算两个uint8_t变量之间的差异的最快方法是什么？

用Python计算两个图像之间的绝对差之和的最快方法是什么？

Python中两个不同形状的数组的余弦距离是如何计算的？

计算列表的两个字典之间相似度的最有效方法是什么？

如何计算两个字符串向量之间的余弦相似度

有什么办法，以加快在Java中两个双阵列之间的余弦相似的这个计算？

在具有相同形状的两个列表中查找相似的实例

有效地计算向量形状 (768,) 和矩阵 (n, 768) 之间的余弦相似度

如何计算PySpark中两个向量的余弦相似度？

如何调试这段代码计算两个unicode文件的余弦相似度？

计算两个向量之间的相似度

Python：两个大型numpy数组之间的余弦相似度

Quanteda：按两个DFM之间的行计算文本相似度

两个大文件的平行余弦相似度

从R中的两个向量生成这种矩阵的最快方法是什么？

TOP 榜单

文章

计算两个相同形状矩阵的行之间的余弦相似度的最快方法是什么

计算两个相同形状矩阵的行之间的余弦相似度的最快方法是什么

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）