(速度挑战)用欧几里德距离来计算两个矩阵行之间的距离矩阵的更快方法?

托马斯·艾斯科丁

首先,这不是计算两个矩阵之间的欧式距离的问题

假设我有两个矩阵xy,例如,

set.seed(1)
x <- matrix(rnorm(15), ncol=5)
y <- matrix(rnorm(20), ncol=5)

哪里

> x
           [,1]       [,2]      [,3]       [,4]       [,5]
[1,] -0.6264538  1.5952808 0.4874291 -0.3053884 -0.6212406
[2,]  0.1836433  0.3295078 0.7383247  1.5117812 -2.2146999
[3,] -0.8356286 -0.8204684 0.5757814  0.3898432  1.1249309

> y
            [,1]       [,2]        [,3]       [,4]        [,5]
[1,] -0.04493361 0.59390132 -1.98935170 -1.4707524 -0.10278773
[2,] -0.01619026 0.91897737  0.61982575 -0.4781501  0.38767161
[3,]  0.94383621 0.78213630 -0.05612874  0.4179416 -0.05380504
[4,]  0.82122120 0.07456498 -0.15579551  1.3586796 -1.37705956

然后,我想获取distmat尺寸为3×4的距离矩阵,其中的元素distmat[i,j]是来自norm(x[1,]-y[2,],"2")的值dist(rbind(x[1,],y[2,]))

  • 我的密码
distmat <- as.matrix(unname(unstack(within(idx<-expand.grid(seq(nrow(x)),seq(nrow(y))), d <-sqrt(rowSums((x[Var1,]-y[Var2,])**2))), d~Var2)))

这使

> distmat
         [,1]     [,2]     [,3]     [,4]
[1,] 3.016991 1.376622 2.065831 2.857002
[2,] 4.573625 3.336707 2.698124 1.412811
[3,] 3.764925 2.235186 2.743056 3.358577

但我不认为我的代码是优雅或效率不够高时xy的大量行。

  • 目的

我期待以R为目标的更快更优雅的代码预先赞赏!

  • 基准模板(更新中)

为了方便起见,您可以使用以下代码作为基准来查看代码是否更快:

set.seed(1)
x <- matrix(rnorm(15000), ncol=5)
y <- matrix(rnorm(20000), ncol=5)
# my customized approach
method_ThomasIsCoding_v1 <- function() {
  as.matrix(unname(unstack(within(idx<-expand.grid(seq(nrow(x)),seq(nrow(y))), d <-sqrt(rowSums((x[Var1,]-y[Var2,])**2))), d~Var2)))
}
method_ThomasIsCoding_v2 <- function() {
  `dim<-`(with(idx<-expand.grid(seq(nrow(x)),seq(nrow(y))), sqrt(rowSums((x[Var1,]-y[Var2,])**2))),c(nrow(x),nrow(y)))
}
method_ThomasIsCoding_v3 <- function() {
  `dim<-`(with(idx1<-list(Var1 = rep(1:nrow(x), nrow(y)), Var2 = rep(1:nrow(y), each = nrow(x))), sqrt(rowSums((x[Var1,]-y[Var2,])**2))),c(nrow(x),nrow(y)))
}
# approach by AllanCameron
method_AllanCameron <- function()
{
  `dim<-`(sqrt(rowSums((x[rep(1:nrow(x), nrow(y)),] - y[rep(1:nrow(y), each = nrow(x)),])^2)), c(nrow(x), nrow(y)))
}
# approach by F.Prive
method_F.Prive <- function() {
  sqrt(outer(rowSums(x^2), rowSums(y^2), '+') - tcrossprod(x, 2 * y))
}
# an existing approach by A. Webb from https://stackoverflow.com/a/35107198/12158757
method_A.Webb <- function() {
  euclidean_distance <- function(p,q) sqrt(sum((p - q)**2))
  outer(
    data.frame(t(x)),
    data.frame(t(y)),
    Vectorize(euclidean_distance)
  )
}



bm <- microbenchmark::microbenchmark(
  method_ThomasIsCoding_v1(),
  method_ThomasIsCoding_v2(),
  method_ThomasIsCoding_v3(),
  method_AllanCameron(),
  method_F.Prive(),
  # method_A.Webb(),
  unit = "relative",
  check = "equivalent",
  times = 10
)
bm

这样

Unit: relative
                       expr      min       lq     mean   median       uq      max neval
 method_ThomasIsCoding_v1() 9.471806 8.838704 7.308433 7.567879 6.989114 5.429136    10
 method_ThomasIsCoding_v2() 4.623405 4.469646 3.817199 4.024436 3.703473 2.854471    10
 method_ThomasIsCoding_v3() 4.881620 4.832024 4.070866 4.134011 3.924366 3.367746    10
      method_AllanCameron() 5.654533 5.279920 4.436071 4.772527 4.184927 3.157814    10
           method_F.Prive() 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000    10
F.私人
method_XXX <- function() {
  sqrt(outer(rowSums(x^2), rowSums(y^2), '+') - tcrossprod(x, 2 * y))
}

Unit: relative
                       expr       min        lq     mean    median        uq      max
 method_ThomasIsCoding_v1() 12.151624 10.486417 9.213107 10.162740 10.235274 5.278517
 method_ThomasIsCoding_v2()  6.923647  6.055417 5.549395  6.161603  6.140484 3.438976
 method_ThomasIsCoding_v3()  7.133525  6.218283 5.709549  6.438797  6.382204 3.383227
      method_AllanCameron()  7.093680  6.071482 5.776172  6.447973  6.497385 3.608604
               method_XXX()  1.000000  1.000000 1.000000  1.000000  1.000000 1.000000

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

(速度挑战)根据通用汉明距离,有没有更快的方法来计算距离矩阵?

两个对象之间的欧几里德距离

查找两个矩阵的行之间的最小距离

用经/纬度计算距离矩阵的更快方法

查找两个矩阵之间的最小余弦距离

两个不同矩阵中元素之间的欧式距离?

使用numpy确定两个矩阵之间的距离

如何使用Apply函数计算两个矩阵之间的距离

R:大数据区吗?计算两个矩阵之间的最小距离

如何计算R中对象(变量)和组(两个变量)之间的距离矩阵

如何计算R中两个矩阵之间的欧式距离

如何计算维数不相等的两个矩阵之间的R欧式距离

如何计算矩阵中两个元素之间的最大欧几里得距离-R?

计算2个矩阵的相应行之间的欧几里得距离

依次提取r中矩阵行中的每两个元素来计算欧氏距离

用numpy计算距离矩阵

R:更快的大距离矩阵计算方法

计算两个质心之间的距离

计算两个纬度之间的距离

计算 NxM 矩阵中每行与每隔一行的欧几里德距离?

使用行主矩阵特征 C++ 的平方欧几里德距离

没有双重for循环的两个python矩阵之间的欧几里得距离?

计算两个位置之间距离的更快方法(邮政编码)

在同一图上同时绘制两个距离矩阵?

来自两个单独数据帧的距离矩阵

计算两点之间地理距离的更快方法

R如何计算两个矩阵行之间的差异?

计算numpy中两个矩阵的行之间的角度

计算矩阵每个点之间的距离