dplyr group_by通过非标准评估的多个函数参数

贾斯汀·兰迪斯（Justin Landis）

我正在阅读dplyr的插图，试图弄清楚如何dplyr在我的功能代码中使用它。在其中途中讨论了如何使用enquoson...以便将多个参数传递给group_by。

它如何工作的简短示例

grp <- rlang::enquos(...)
df %>%
    group_by(!!!grp)

我不知道是否有一种方法可以分配多个表达式值而不进行保留，...而不进行一些可疑的编码。

要了解调用的外观，请使用以下示例：

#reproducable data
df <- datasets::USJudgeRatings
df$name <- rownames(df)
df <- tidyr::gather(df, key = "key", value = "value", -name)
df$dummy <- c("1","2")


test_summarize <- function(df, sum.col, grp = NULL, filter = NULL) {
  filter <- rlang::enquo(filter)
  sum.col <- rlang::enquo(sum.col)
  if(!is.null(rlang::get_expr(filter))){
    df <- dplyr::filter(df, !!filter)
  }

  #how grp is turned into a character vector to be passed to .dots in group_by
  grp <- substitute(grp)
  if(!is.null(grp)){
    grp <- deparse(grp)
    grp <- strsplit(gsub(pattern = "list\\(|c\\(|\\)|", replacement = "", x = grp), split =",")[[1]]
    grp <- gsub(pattern = "^ | $", replacement = "", x = grp)
   df %>%
      dplyr::group_by(.dots=grp) %>%
      dplyr::summarise(mean = mean(!!sum.col), sum = sum(!!sum.col), n = n())
  } else{
    df %>%
      dplyr::summarise(mean = mean(!!sum.col), sum = sum(!!sum.col), n = n())
  }

}

test_summarize(df, sum.col=value, grp = c(name, dummy))

# A tibble: 86 x 5
# Groups:   name [?]
   name           dummy  mean   sum     n
   <chr>          <fct> <dbl> <dbl> <int>
 1 AARONSON,L.H.  1      7.17  43       6
 2 AARONSON,L.H.  2      7.42  44.5     6
 3 ALEXANDER,J.M. 1      8.35  50.1     6
 4 ALEXANDER,J.M. 2      7.95  47.7     6
 5 ARMENTANO,A.J. 1      7.53  45.2     6
 6 ARMENTANO,A.J. 2      7.7   46.2     6
 7 BERDON,R.I.    1      8.67  52       6
 8 BERDON,R.I.    2      8.25  49.5     6
 9 BRACKEN,J.J.   1      5.65  33.9     6
10 BRACKEN,J.J.   2      5.82  34.9     6
# ... with 76 more rows

这对我想做的事情有效，但我想知道是否有更好的方法来接受参数并处理它们。我所做的每一次尝试都将原始grp呼叫转换为类似于enquos(...)失败的内容，因此我进行了一次装帧并将其转换为字符向量，说实话，我应该只希望用户传递字符？

我选择不使用字符向量作为预期输入，因为考虑到该函数的sum.col和filter参数期望使用NSE表达式，因此我试图保持一致。也许rlang包中有一些东西可以将原始表达式的每个元素转换成一个quosures列表？

编辑：修复了可重现的示例并提供了预期的输出

阿克伦

如果使用group_by_at，则可能不需要if/else参数

test_summarize <- function(df, sum.col, grp = NULL, filter = NULL) {
df %>% 
     group_by_at(grp) %>%
     summarise(mean = mean({{sum.col}}), 
               sum = sum({{sum.col}}), n = n())

   }


test_summarize(df, sum.col=value, grp = c("name", "dummy"))
# A tibble: 86 x 5
# Groups:   name [43]
#   name           dummy  mean   sum     n
#   <chr>          <chr> <dbl> <dbl> <int>
# 1 AARONSON,L.H.  1      7.17  43       6
# 2 AARONSON,L.H.  2      7.42  44.5     6
# 3 ALEXANDER,J.M. 1      8.35  50.1     6
# 4 ALEXANDER,J.M. 2      7.95  47.7     6
# 5 ARMENTANO,A.J. 1      7.53  45.2     6
# 6 ARMENTANO,A.J. 2      7.7   46.2     6
# 7 BERDON,R.I.    1      8.67  52       6
# 8 BERDON,R.I.    2      8.25  49.5     6
# 9 BRACKEN,J.J.   1      5.65  33.9     6
#10 BRACKEN,J.J.   2      5.82  34.9     6
# … with 76 more rows



test_summarize(df, sum.col=value)
# A tibble: 1 x 3
#   mean   sum     n
#  <dbl> <dbl> <int>
#1  7.57 3908.   516

这与

df %>%
   summarise(mean = mean(value), sum = sum(value), n = n())
#     mean    sum   n
#1 7.57345 3907.9 516

如果使用filter，则一个选项是，...并通过尽可能多的过滤条件

test_summarize <- function(df, sum.col, grp = NULL, ...) {
    df %>% 
         filter(!!! rlang::enexprs(...)) %>%
         group_by_at(grp) %>%
         summarise(mean = mean({{sum.col}}), sum = sum({{sum.col}}), n = n())

}


test_summarize(df, sum.col=value, grp = c("name", "dummy"),
        key %in% c("CONT", "INTG"), value > 6.5)
# A tibble: 77 x 5
# Groups:   name [43]
#   name           dummy  mean   sum     n
#   <chr>          <chr> <dbl> <dbl> <int>
# 1 AARONSON,L.H.  2       7.9   7.9     1
# 2 ALEXANDER,J.M. 1       8.9   8.9     1
# 3 ALEXANDER,J.M. 2       6.8   6.8     1
# 4 ARMENTANO,A.J. 1       7.2   7.2     1
# 5 ARMENTANO,A.J. 2       8.1   8.1     1
# 6 BERDON,R.I.    1       8.8   8.8     1
# 7 BERDON,R.I.    2       6.8   6.8     1
# 8 BRACKEN,J.J.   1       7.3   7.3     1
# 9 BURNS,E.B.     1       8.8   8.8     1
#10 CALLAHAN,R.J.  1      10.6  10.6     1
# … with 67 more rows

并且还将在没有过滤器参数的情况下进行评估

test_summarize(df, sum.col=value, grp = c("name", "dummy"))
# A tibble: 86 x 5
# Groups:   name [43]
#   name           dummy  mean   sum     n
#   <chr>          <chr> <dbl> <dbl> <int>
# 1 AARONSON,L.H.  1      7.17  43       6
# 2 AARONSON,L.H.  2      7.42  44.5     6
# 3 ALEXANDER,J.M. 1      8.35  50.1     6
# 4 ALEXANDER,J.M. 2      7.95  47.7     6
# 5 ARMENTANO,A.J. 1      7.53  45.2     6
# 6 ARMENTANO,A.J. 2      7.7   46.2     6
# 7 BERDON,R.I.    1      8.67  52       6
# 8 BERDON,R.I.    2      8.25  49.5     6
# 9 BRACKEN,J.J.   1      5.65  33.9     6
#10 BRACKEN,J.J.   2      5.82  34.9     6
# … with 76 more rows

与您的第一个输出相同

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

dplyr group_by通过非标准评估的多个函数参数

dplyr group_by通过非标准评估的多个函数参数

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID