使用 R dplyr 包根据其他列值操作列

奥兹图尔基布

我想为每个学生选择最好的 2 个测验考试结果（最高分和最高出勤率），并在 3 个测验考试中消除最弱的测验。我们可能会说我想从每行的 3 列中选择最好的 2 列。然后新建一个数据框有StudentID, ExamQuiz1, ExamQuiz2, ExamMidterm and ExamFinal。我可以通过循环遍历表来处理它，这在 RI 假设中效率太低。处理 dplyr 包问题的有效方法是什么？

极简数据

伪数据框放置在底部。“ G”表示学生没有参加考试，所以我想保留该值而不是将其替换为 0。例如，如果他用 G ( ExamQuiz1), 0 ( ExamQuiz2), 10 ( ExamQuiz3)得到这个场景，我必须选择 0 作为ExamQuiz1和 10 作为ExamQuiz2测验输入。因为0比G因为出勤面好。如果有结果（带数字），则表示该学生已经参加。列下的每个单元格都ExamQuiz1, ExamQuiz2, ExamMidterm and ExamFinal可能有数字（考试结果）或字符值（“ G” > 未参加）。我不会触及 ExamMidterm 和 ExamFinal 列的任何值。主要思想只与ExamQuiz1, ExamQuiz2, and ExamQuiz3.

   StudentID  ExamQuiz1  ExamQuiz2  ExamQuiz3  ExamMidterm  ExamFinal
1      11111          0          G          G            G          G
2      22222          0          G         43           71         18
3      33333          0          G          G            G          G
4      44444          0          G          G            G          G
5      55555         60         38          G           64         27
6      66666          0          G          G            G          G

编辑：仍有一些评论者不断指出数据不整洁。正如我在评论中所解释的那样，这样做的原因或您提供的整理方法对我来说没有意义。出于这个原因，我在不改变数据结构的情况下对问题主体进行了更多解释。

蔡达伦

一个基本的 R 解决方案

cbind(df[-(2:4)], t(apply(df[2:4], 1, function(x){
  c(x[x == "G"], sort(x[x != "G"]))[-1]
})))

#   StudentID Midterm Final  1  2
# 1     11111       G     G  G  0
# 2     22222      71    18  0 43
# 3     33333       G     G  G  0
# 4     44444       G     G  G  0
# 5     55555      64    27 38 60
# 6     66666       G     G  G  0

在你的规则中，G应该放在任何数字前面。所以一开始我把所有存在的东西放在G一个向量的开头并附加排序的分数。删除向量中的第一个元素后，将保留前 2 个分数。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-10

我来说两句

0 条评论

登录后参与评论

上一篇：Azure 函数打印出 http 错误消息

TOP 榜单

文章

使用 R dplyr 包根据其他列值操作列

使用 R dplyr 包根据其他列值操作列

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u