dplyr使用if语句根据订单条件进行汇总

用户名

按组（group_by(id)），我正在尝试基于的选择求和一个变量types。但是，这些有优先顺序types。例：

library(tidyverse)
df <- data.frame(id = c(rep(1, 6), 2, 2, 2, rep(3, 4), 4, 5),
                 types = c("1a", "1a", "2a", "3b", "4c", "7d",
                          "4c", "7d", "7d","4c", "5d", "6d", "6d","5d","7d"),
                 x = c(10, 15, 20, 15, 30, 40,
                       10, 10, 15, 10, 10, 10, 10, 10, 10),
                 y = c(1:15),
                 z = c(1:15)
)
df
#    id types  x  y  z
# 1   1    1a 10  1  1
# 2   1    1a 15  2  2
# 3   1    2a 20  3  3
# 4   1    3b 15  4  4
# 5   1    4c 30  5  5
# 6   1    7d 40  6  6
# 7   2    4c 10  7  7
# 8   2    7d 10  8  8
# 9   2    7d 15  9  9
# 10  3    4c 10 10 10
# 11  3    5d 10 11 11
# 12  3    6d 10 12 12
# 13  3    6d 10 13 13
# 14  4    5d 10 14 14
# 15  5    7d 10 15 15

我想sum(x)根据types偏好按以下顺序排列：

preference_1st = c("1a", "2a", "3b")
preference_2nd = c("7d")
preference_3rd = c("4c", "5d", "6d")

因此，这意味着，如果一个id包含任何类型的preference_1st，我们如果从孤单没有总结它们并忽略其他类型preference_1st，我们总结所有preference_2nd而忽略其他。最后，如果只有孤单types从preference_3rd我们总结这些。因此id=1，我们要忽略类型4c和7d。（我也希望其他变量的更简单的计算，z并且y在这个例子中）。

所需的输出：

desired
  id sumtest ymean zmean
1  1      60   3.5   3.5
2  2      25   8.0   8.0
3  3      40  11.5  11.5
4  4      10  14.0  14.0
5  5      10  15.0  15.0

我认为一个可能的选择是使用mutate并case_when创建某种顺序变量，但是我认为withif语句应该有更好的选择？以下内容很接近，但不能正确区分首选项：

df %>%
  group_by(id) %>%
  summarise(sumtest = if (any(types %in% preference_1st)) {
    sum(x)
  } else if (any(!types %in% preference_1st) & any(types %in% preference_2nd)) {
    sum(x)
  } else {
    sum(x)
  },
            ymean = mean(y),
            zmean = mean(z))
#      id sumtest ymean zmean
#   <dbl>   <dbl> <dbl> <dbl>
# 1     1     130   3.5   3.5
# 2     2      35   8     8  
# 3     3      40  11.5  11.5
# 4     4      10  14    14  
# 5     5      10  15    15

也开放其他方法吗？有什么建议？

谢谢

艾伦·卡梅伦

这是dplyr解决方案：

df %>% 
  group_by(id) %>%
  mutate(ymean = mean(y), zmean = mean(z), 
         pref = 3 * types %in% preference_3rd + 
                2 * types %in% preference_2nd +
                1 * types %in% preference_1st ) %>%
  filter(pref == min(pref)) %>%
  summarise(sumtest = sum(x), ymean = first(ymean), zmean = first(zmean))
#> # A tibble: 5 x 4
#>      id sumtest ymean zmean
#>   <dbl>   <dbl> <dbl> <dbl>
#> 1     1      60   3.5   3.5
#> 2     2      25   8     8  
#> 3     3      40  11.5  11.5
#> 4     4      10  14    14  
#> 5     5      10  15    15

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：从csv文件读取日期给出错误的日期

dplyr使用if语句根据订单条件进行汇总

dplyr使用if语句根据订单条件进行汇总

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接