如何使用 dplyr 到 group_by() 来折叠子系列

水

感谢您的帮助！我不是 R 专家，但有一些使用它的经验，我有一个我想弄清楚的难题。在这种情况下，我正在运行模拟以创建事件的子系列：

# A tibble: 20 x 3
   GeneID  counts       Freq
   <fct>    <int>      <dbl>
 1 1.1          3 0.0000132 
 2 1.2          4 0.0000176 
 3 1.3          5 0.0000220 
 4 1.4          2 0.00000880
 5 10.1         1 0.00000440
 6 10.2         4 0.0000176 
 7 10.3         1 0.00000440
 8 10.4         2 0.00000880
 9 10.5         3 0.0000132 
10 100.1        5 0.0000220 
11 100.2        5 0.0000220 
12 100.3        2 0.00000880
13 100.4        2 0.00000880
14 100.5        2 0.00000880

在 GeneID 中，我有 1.1、1.2、1.3 和 1.4，它们是 Gene 1 的变体（其他原理相同）。是否可以使用 dplyr 中的 group_by 将变体折叠为单个组？IE。1.1 1.2 1.3 1.4 分组为 1 并对相关计数求和（以此类推）？

我想过使用 trunc() 创建另一列来删除小数，但这些数据集可能非常大....

先感谢您。

罗纳克·沙阿

您走在正确的轨道上，您可以通过删除"."in之后的所有内容来创建一个新列，GeneID并sum为每个唯一值取值。

library(dplyr)

df %>%
  group_by(Gene_group = sub('\\..*', '', GeneID)) %>%
  summarise(Freq = sum(Freq))

# Gene_group      Freq
#  <chr>          <dbl>
#1 1          0.0000616
#2 10         0.0000484
#3 100        0.0000704

如果你的数据集很大并且你担心性能，你也可以使用上面的data.table方法。

library(data.table)
setDT(df)[, Gene_group := sub('\\..*', '', GeneID)]
df[, sum(Freq), Gene_group]

数据

df <- structure(list(GeneID = c(1.1, 1.2, 1.3, 1.4, 10.1, 10.2, 10.3, 
10.4, 10.5, 100.1, 100.2, 100.3, 100.4, 100.5), counts = c(3L, 
4L, 5L, 2L, 1L, 4L, 1L, 2L, 3L, 5L, 5L, 2L, 2L, 2L), Freq = c(1.32e-05, 
1.76e-05, 2.2e-05, 8.8e-06, 4.4e-06, 1.76e-05, 4.4e-06, 8.8e-06, 
1.32e-05, 2.2e-05, 2.2e-05, 8.8e-06, 8.8e-06, 8.8e-06)), 
class = "data.frame", row.names = c(NA, -14L))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-15

我来说两句

0 条评论

登录后参与评论

上一篇：如果您可以在没有模板的情况下做同样的事情，那么 C++ 中的模板专业化有什么意义？

如何使用 dplyr 到 group_by() 来折叠子系列

如何使用 dplyr 到 group_by() 来折叠子系列

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用