我有一个非常庞大的数据集,我正在寻找最简单(也是最快)的方法来创建一个列,该列对一个特定列的值求和,然后继续只留下一个重复项。
我的数据集如下所示:
data <- data.frame(DATE_INTER = c("2015-05-29", "2013-12-13", "2009-09-08"),
DATE_SAIDA = c("2015-06-10", "2013-12-15", "2009-10-20"),
GRUPO_AIH = c("09081997", "13122006", "13122006"),
DIAS_PERMANENCIA = c(12, 2, 42))
我需要使用“GRUPO_AIH”列来检查重复项。我的最终输出将是这样的:
我已经尝试过了,但是它花费了太长时间,完成后,我什至无法使用 dplyr 过滤任何 R 停止工作的东西。
data <- data %>%
group_by(GRUPO_AIH) %>%
mutate(DIAS_PERMANENCIA2 = sum(DIAS_PERMANENCIA))
有什么建议么?
这是答案。只是一个观察,在您提供的数据集示例中,您实际上在 GRUPO_AIH 变量中没有任何重复的值,所以我改为GRUPO_AIH = c("09081997", "13122006", "13122006"),
data %>%
group_by(GRUPO_AIH) %>%
mutate(DIAS_PERMANENCIA = sum(DIAS_PERMANENCIA)) %>%
filter(duplicated(GRUPO_AIH) == FALSE)
DATE_INTER DATE_SAIDA GRUPO_AIH DIAS_PERMANENCIA
<chr> <chr> <chr> <dbl>
1 2015-05-29 2015-06-10 09081997 12
2 2013-12-13 2013-12-15 13122006 44
OBS:我也是一名健康专家,负责处理监控中的数据 kk
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句