使用布尔输出加快匹配固定字符串％in％/％like％的速度

Birger 发表于 Dev

比尔格

我想要一个逻辑向量，指示第二个列表中是否存在匹配项。%in%如果您需要精确匹配，可以使用运算符，但是我对任何匹配都感兴趣，因此我创建了%like%运算符：

table <- rownames(mtcars) 
table
#>  [1] "Mazda RX4"           "Mazda RX4 Wag"       "Datsun 710"         
#>  [4] "Hornet 4 Drive"      "Hornet Sportabout"   "Valiant"            
#>  [7] "Duster 360"          "Merc 240D"           "Merc 230"           
#> [10] "Merc 280"            "Merc 280C"           "Merc 450SE"         
#> [13] "Merc 450SL"          "Merc 450SLC"         "Cadillac Fleetwood" 
#> [16] "Lincoln Continental" "Chrysler Imperial"   "Fiat 128"           
#> [19] "Honda Civic"         "Toyota Corolla"      "Toyota Corona"      
#> [22] "Dodge Challenger"    "AMC Javelin"         "Camaro Z28"         
#> [25] "Pontiac Firebird"    "Fiat X1-9"           "Porsche 914-2"      
#> [28] "Lotus Europa"        "Ford Pantera L"      "Ferrari Dino"       
#> [31] "Maserati Bora"       "Volvo 142E"

x <- c('Porsche', 'Porsche 914-2', 'Porsche 911', 'Volvo')

x %in% table
#> [1] FALSE  TRUE FALSE FALSE

"%like%" <- function(x, table) sapply(x, function(x) 
  sum(grepl(pattern = x, x = table))>0, USE.NAMES = FALSE)

x %like% table
#> [1]  TRUE  TRUE FALSE  TRUE

不幸的是，%like%操作员非常慢：

library(microbenchmark)

x1 <- c('Porsche', 'Porsche 914-2', 'Porsche 911', 'Volvo')
x2 <- rep(x1, 10)
x3 <- rep(x1, 100)
table <- rownames(mtcars) 

"%like%" <- function(x, table) sapply(x, function(x) 
  sum(grepl(pattern = x, x = table))>0, USE.NAMES = FALSE)

microbenchmark(x1 %in% table, x1 %like% table, times = 1000)
#> Unit: microseconds
#>             expr    min      lq      mean  median      uq     max neval
#>    x1 %in% table  1.549  1.8635  2.248905  2.2545  2.5000   7.331  1000
#>  x1 %like% table 69.697 71.2110 73.235948 72.6555 74.0835 149.087  1000
microbenchmark(x2 %in% table, x2 %like% table, times = 1000)
#> Unit: microseconds
#>             expr     min       lq       mean   median       uq      max
#>    x2 %in% table   2.327   2.8795   3.330329   3.3055   3.6515    7.539
#>  x2 %like% table 573.005 581.0885 590.760082 584.2270 588.2580 1624.687
#>  neval
#>   1000
#>   1000
microbenchmark(x3 %in% table, x3 %like% table, times = 1000)
#> Unit: microseconds
#>             expr      min       lq       mean   median        uq       max
#>    x3 %in% table    9.195    9.950   11.79078   10.923   12.5675    36.341
#>  x3 %like% table 5612.931 5707.168 5973.83801 5737.892 5823.7875 11868.495
#>  neval
#>   1000
#>   1000

如何加速%like%操作员？

冰激凌巨嘴鸟

如果您能够接受的精确匹配，你可以使用fixed = T在grepl加快速度

"%birger%" <- function(x, table) sapply(x, function(x) 
  sum(grepl(pattern = x, x = table))>0, USE.NAMES = FALSE)

'%birger.fixed%' <- function(x, table) sapply(x, function(x) 
  any(grepl(pattern = x, x = table, fixed = T)), USE.NAMES = FALSE)

all.equal(x %birger.fixed% table, x %birger% table)
# [1] TRUE

microbenchmark(x %birger.fixed% table, x %birger% table, times = 1000, unit = 'relative')

# Unit: relative
#                    expr      min       lq     mean   median       uq      max neval
#  x %birger.fixed% table 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000  1000
#        x %birger% table 2.059546 2.011009 1.903589 1.913446 1.857798 1.336424  1000

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：Firestore（4.13.0）：内部未处理的错误

如何使用布尔掩码在熊猫DataFrame中用nan替换“任何字符串”？

如何加快熊猫申请字符串匹配

使用布尔输出加快匹配固定字符串％in％/％like％的速度

使用布尔输出加快匹配固定字符串％in％/％like％的速度

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）