dplyr按组计算分数

GregV 发表于 Dev

格雷格

只有2个农场，但吨fruit。试图查看哪个服务器场在3年内的性能更好，其中性能只是服务器场_i /（服务器场₁ +服务器场₂），因此，fruit==peach服务器场_1的性能为20％，而服务器场_2的为80％

样本数据：

df <- data.frame(fruit = c("apple", "apple", "peach", "peach", "pear", "pear", "lime", "lime"),
                    farm = as.factor(c(1,2,1,2,1,2,1,2)), 'y2019' = c(0,0,3,12,0,7,4,6), 
                    'y2018' = c(5,3,0,0,8,2,0,0),'y2017' = c(4,5,7,15,0,0,0,0) )
> df
  fruit farm y2019 y2018 y2017
1 apple    1     0     5     4
2 apple    2     0     3     5
3 peach    1     3     0     7
4 peach    2    12     0    15
5  pear    1     0     8     0
6  pear    2     7     2     0
7  lime    1     4     0     0
8  lime    2     6     0     0
>

所需的输出：

 out
  fruit farm y2019 y2018    y2017
1 apple    1   0.0 0.625 0.444444
2 apple    2   0.0 0.375 0.555556
3 peach    1   0.2 0.000 0.318818
4 peach    2   0.8 0.000 0.681818
5  pear    1   0.0 0.800 0.000000
6  pear    2   1.0 0.200 0.000000
7  lime    1   0.4 0.000 0.000000
8  lime    2   0.6 0.000 0.000000
>

这是我能走的很远的地方：

df %>% 
  group_by(fruit) %>% 
  summarise(across(where(is.numeric), sum))

阿克伦

我们可以按“水果”分组，mutate across以“ y”开头的列将元素除以sum这些列中的值，if all值是0，然后返回0

library(dplyr)
df %>%
   group_by(fruit) %>% 
   mutate(across(starts_with('y'), ~ if(all(. == 0)) 0 else ./sum(.)))

# A tibble: 8 x 5
# Groups:   fruit [4]
#  fruit farm  y2019 y2018 y2017
#  <chr> <fct> <dbl> <dbl> <dbl>
#1 apple 1       0   0.625 0.444
#2 apple 2       0   0.375 0.556
#3 peach 1       0.2 0     0.318
#4 peach 2       0.8 0     0.682
#5 pear  1       0   0.8   0    
#6 pear  2       1   0.2   0    
#7 lime  1       0.4 0     0    
#8 lime  2       0.6 0     0

注意：在这里，我们只使用了dplyr软件包，并且只需一步即可完成

或者另一种选择是adorn_percentages从janitor

library(janitor)
library(purrr)
df %>%
    group_split(fruit) %>%
    map_dfr(adorn_percentages, denominator = "col") %>%
    as_tibble

或使用 data.table

library(data.table)
setDT(df)[, (3:5) := lapply(.SD, function(x) if(all(x == 0)) 0 
        else x/sum(x, na.rm = TRUE)), .SDcols = 3:5, by = fruit][]

或使用 base R

grpSums <- rowsum(df[3:5], df$fruit)
df[3:5] <- df[3:5]/grpSums[match(df$fruit, row.names(grpSums)),]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-25

我来说两句

0 条评论

登录后参与评论

按组计算变量更改分数的次数

使用dplyr按组计算每个块？

如何使用dplyr按组计算比例？

使用dplyr按组计算平均时差

使用dplyr按组计算的百分比

使用dplyr在R中按组计算统计检验

使用dplyr按组计算连续行之间的差异？

R使用dplyr按组计算加权统计量

使用dplyr包按组计算平均值

用dplyr按组计算平均值

按组计算dplyr中具有先前值的字段

按组计算时差

按组计算水平

按组计算Python

使用dplyr计算一列中按组计算的百分比，而忽略空白

如何按组拆分数据？

按组排名变量（dplyr）

dplyr如何按组落后

dplyr样本（按值组）

如何按科目名称计算分数值？

如何用lm，do，broom和dplyr按组计算回归？

在dplyr中按组获取总和后计算具有行百分比的列

使用汇总和跨 dplyr 按组计算几列的非“NA”

使用dplyr计算按组平均值和逻辑值之间的差异

如何使用 dplyr 或 data.table 按数据子集组执行前瞻计算？

按组对子组进行排名 (dplyr)

按组计算正值的比率

按天计算不同的组

MySQL按组计算总和

TOP 榜单

文章

dplyr按组计算分数

dplyr按组计算分数

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成