基于条件子集列表元素

比利让

我有以下数据框

mydf<- data.frame(c(1,1,3,4,5,6),
                  c(1,1,3,10,20,30),
                  c(1,10,20,20,15,10))
colnames(mydf)<-c( "ID1","ID2", "ID3")

让我们数一数有多少个实例，mydf$ID1并且mydf$ID2我们有它们出现两次的地方

tmp<-plyr::ddply(mydf,c("ID1","ID2"),nrow)
tmp<-tmp[tmp$V1==2,]

这有以下输出（有两个相同的实例）

  ID1 ID2 V1
1   1   1  2

现在我想提取剩余的字段，即ID3，这两个实例：

asd<-mydf[ (mydf$ID1 %in% tmp$ID1) & (mydf$ID1 %in% tmp$ID2), ]

这给了我以下内容

  ID1 ID2 ID3
1   1   1   1
2   1   1  10

这正是我想要的，也是我想要的，所以一切都很好。

但是，我的真实数据集不仅包含 3 个向量，例如mydf，而是 300 个。每个向量不仅仅是 6 个元素长，而是 +50.000

当我对我的数据运行上述方法时，我得到的条目实例不仅出现 2 次，而且出现 1、3、4 次等等。所以这意味着有些事情是错误的。

是不是因为上面的方法不能扩展到大数据？还是因为我上面概述的方法本质上是错误的？

不幸的是，由于我的数据量很大，我不能在这里发布。

更新：仅以具有 3 个向量的列表为例。实际上我的数据有很多向量，但我仍然想根据两个向量的重复项对它们进行分组。一个例子：

library(dplyr)


mydf<- data.frame(c(1,  1, 3, 4, 5, 6,0),
                  c(22,22, 3,10,20,30,0),
                  c(2, 10,20,20,15,10,0),
                  c(3, 10,20,20,15,10,0),
                  c(4, 10,20,20,15,10,15),
                  c(5, 99,98,98,97,99,97))
colnames(mydf)<-c( "ID1","ID2", "ID3", "ID4", "ID5", "ID6")

(mydf %>% group_by(ID5, ID6) %>% filter(n()==2))

根据需要，这会产生

    ID1   ID2   ID3   ID4   ID5   ID6
  <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1     1    22    10    10    10    99
2     3     3    20    20    20    98
3     4    10    20    20    20    98
4     5    20    15    15    15    97
5     6    30    10    10    10    99
6     0     0     0     0    15    97

阿克伦

我们可以用更简单的方式做到这一点 dplyr

library(dplyr)
mydf %>% 
    group_by(ID1, ID2) %>% 
    filter(n()==2)

如果有超过 2 列作为分组变量，我们可以使用 group_by_

mydf %>%
    group_by_(.dots = names(mydf)[1:2]) %>%
    filter(n()==2)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-1

我来说两句

0 条评论

登录后参与评论

上一篇：为什么kibana的可视化图表中的唯一计数不正确？

基于列表中元素的子集数据

基于内部列表元素的值的列表子集列表

基于相同列表的元素组的python列表的子集，python

基于 R 中的条件对嵌套列表进行子集化

基于条件的子集

嵌套列表的条件子集

元素列表的子集

R中基于条件的子集

如何基于条件合并字符串列表的元素

基于条件合并连续列表元素的有效方法

带有基于逻辑条件的数字向量的 data.frames 子集列表

使用lapply根据条件创建列表的子集以创建新列表并保留元素名称

返回匹配条件的列表子集

基于条件的数据子集模糊模糊

基于条件熊猫的子集数据帧

基于多个条件的子集数据

基于r中条件的子集数据

基于条件语句的子集数据

基于条件的子集ar数据帧

基于条件R的观测子集问题

基于 R 中条件的子集数据

基于列表的条件格式

基于列表元素的计算

基于列表对象的子集数据框

如何基于列表子集大型数组？

如何返回匹配条件的列表的子集？

从列表中子集n个元素

通过其子集选择列表的元素

使用名称的列表中元素之间的子集

TOP 榜单

文章

基于条件子集列表元素

基于条件子集列表元素

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用