通过唯一ID子集数据

Angie 发表于 Dev

安吉

我尝试根据ID（可以是任何数字）和一个条件对数据进行子集化。一个例子可能是；

我有几辆带有不同数量的cilcils和不同数量的化油器的汽车。我希望为cilcils的每个唯一值提供一个子集。在陶器子集中，我再次想要化油器的每个唯一值的子集。

到目前为止，我尝试的是通过唯一数量的cilinders划分mtcars数据。效果很好，给了我3个子集。我是这样做的。

# Loading
data(mtcars)

mtcars_split <- split(mtcars, mtcars$cyl)
new_names <- c("subset1", "subset2", "subset3", "subset4")
for (i in 1:length(mtcars_split)) {
  assign(new_names[i], mtcars_split[[i]])
}

由于mtcars数据集中只有三个不同数量的cilinder，因此不使用子集4。

但是现在我想对子集1，子集2和子集3进行化油器数量相同的操作。

然后我尝试了

#For cylinder 4, carb 1 and 2 
mtcars_split2 <- split(subset1, subset1$carb)
new_names <- c("subset1carb1", "subset1carb2")
for (i in 1:length(mtcars_split2)) {
  assign(new_names[i], mtcars_split2[[i]])
}

#for cyclinder 6, carb 1,2 and 3
mtcars_split3 <- split(subset2, subset2$carb)
new_names <- c("subset2carb1", "subset2carb2", "subset2carb3")
for (i in 1:length(mtcars_split3)) {
  assign(new_names[i], mtcars_split3[[i]])
}

#for cyclinder 8, carb 1,2,3 and 4
mtcars_split4 <- split(subset3, subset3$carb)
new_names <- c("subset3carb1", "subset3carb2", "subset3carb3", "subset3carb4")
for (i in 1:length(mtcars_split4)) {
  assign(new_names[i], mtcars_split4[[i]])
}

#etc

但是，必须有一种更简单的方法来做到这一点吗？在大型数据集中，这种手动解决方案会花费太多时间。在某个时刻，您将获得大量必须定义的不同组合。

如果R能够基于这两个条件以某种方式自动生成并命名唯一子集，那就太好了。cilcils和化油器。

罗纳克·沙

我们可以split基于多个列进行数据处理，删除空列表并使用列表名称写入数据。这可以在R的基数中完成：

temp <- Filter(nrow, split(mtcars, list(mtcars$cyl, mtcars$carb)))
Map(write.csv, temp, paste0("Subset", names(temp), ".csv"))

或在 tidyverse

library(tidyverse)
split(mtcars, list(mtcars$cyl, mtcars$carb)) %>%
   keep(~nrow(.x) > 0) %>%
   imap(~write.csv(.x, paste0("Subset", .y, ".csv")))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

上一篇：vec [i] [j]转换为*（vec + i + j）吗？

使用唯一值的子集数据框并返回每个唯一值的所有行

通过比较列子集数据框

通过逆对子集数据

通过列名称子集数据框

通过子集数据创建新变量

通过基于时间段和唯一 ID 号创建子集来合并数据帧

基于唯一时间的迭代子集数据帧

一次子集数据

在R中子集数据无法通过向量工作

通过不同的变量子集数据（多次）

子集数据框架并一次运行计算

最近一个月的子集数据

使用R创建一个循环以子集数据

删除仅出现一次的子集数据行

子集数据帧，但跳过一些行

Julia：子集数据框

用awk子集数据

按条件子集数据

用GREP子集数据

子集数据 getSymbols quantmod

子集数据帧中的一列，将子集保留为数据帧

通过R中的列内的唯一值对数据帧进行子集

通过为变量指定长度大于1的向量来子集数据帧

使用dplyr通过多个行和列匹配子集数据帧

通过基于两列随机选择值来子集数据帧

通过检查列值的等效性来子集数据帧

通过有条件地将值传递给iloc来子集数据帧

子集数据帧如何基于数据帧的最后一行？

使用另一个不同长度的数据帧子集数据帧

TOP 榜单

文章

通过唯一ID子集数据

通过唯一ID子集数据

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID