我正在使用dplyr
的自动SQL后端从数据库表查询子表。例如
my_tbl <- tbl(my_db, "my_table")
其中,my_table
在数据库中的模样
batch_name value
batch_A_1 1
batch_A_2 2
batch_A_2 3
batch_B_1 8
batch_B_2 9
...
我只想要来自的数据batch_A_#
,而不管数量如何。
如果我是用SQL编写的,则可以使用
select * where batch_name like 'batch_A_%'
如果我是在R写入这一点,我可以用一些方法来得到这样的:grepl()
,%in%
或str_detect()
# option 1
subtable <- my_tbl %>% select(batch_name, value) %>%
filter(grepl('batch_A_', batch_name, fixed = T))
# option 2
subtable <- my_tbl %>% select(batch_name, value) %>%
filter(str_detect(batch_name, 'batch_A_'))
所有这些都会产生以下Postgres错误: HINT: No function matches the given name and argument types. You might need to add explicit type casts
因此,如何传递SQL字符串函数或匹配函数以帮助使生成的dplyr SQL查询能够使用更灵活的函数范围filter
?
(仅供参考,该%in%
函数可以正常工作,但需要列出所有可能的值。可以结合使用paste
列出一个列表,但不适用于更一般的正则表达式)
一个“ dplyr
-only”解决方案是这样
tbl(my_con, "my_table") %>%
filter(batch_name %like% "batch_A_%") %>%
collect()
完整说明:
suppressPackageStartupMessages({
library(dplyr)
library(dbplyr)
library(RPostgreSQL)
})
my_con <-
dbConnect(
PostgreSQL(),
user = "my_user",
password = "my_password",
host = "my_host",
dbname = "my_db"
)
my_table <- tribble(
~batch_name, ~value,
"batch_A_1", 1,
"batch_A_2", 2,
"batch_A_2", 3,
"batch_B_1", 8,
"batch_B_2", 9
)
copy_to(my_con, my_table)
tbl(my_con, "my_table") %>%
filter(batch_name %like% "batch_A_%") %>%
collect()
#> # A tibble: 3 x 2
#> batch_name value
#> * <chr> <dbl>
#> 1 batch_A_1 1
#> 2 batch_A_2 2
#> 3 batch_A_2 3
dbDisconnect(my_con)
#> [1] TRUE
之所以可行,是因为dplyr不知道如何翻译的所有函数都会照原样传递,请参见?dbplyr::translate\_sql
。
帽尖到@PaulRougieux为他最近的评论点击这里
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句