如何删除唯一条目并在R中保留重复项

沉睡的

ID     Cat1  Cat2    Cat3   Cat4
A0001   358 11.25   37428   0
A0001   279 14.6875 38605   0
A0013   367 5.125   40152   1
A0014   337 16.3125 38624   0
A0020   367 8.875   37797   0
A0020   339 9.625   39324   0

我需要学习如何在保留重复项或三重复项的同时删除文件中的唯一行的帮助。例如，输出应如下所示：

ID     Cat1  Cat2    Cat3   Cat4
A0001   358 11.25   37428   0
A0001   279 14.6875 38605   0
A0020   367 8.875   37797   0
A0020   339 9.625   39324   0

如果您能给我建议如何解决这个问题，不胜感激。

感谢大家的建议。我想计算重复度量（通过唯一ID）在不同类别（即Cat2，Cat 3）中的值差异。将不胜感激任何建议。

研究

基础R中的另一个选项 duplicated

dx[dx$ID %in% dx$ID[duplicated(dx$ID)],]

#      ID Cat1    Cat2  Cat3 Cat4
# 1 A0001  358 11.2500 37428    0
# 2 A0001  279 14.6875 38605    0
# 5 A0020  367  8.8750 37797    0
# 6 A0020  339  9.6250 39324    0

使用重复的data.table

使用duplicated和fromLast获得的版本：

library(data.table)
setkey(setDT(dx),ID) # or with data.table 1.9.5+: setDT(dx,key="ID")
dx[duplicated(dx) |duplicated(dx,fromLast=T)]

#       ID Cat1    Cat2  Cat3 Cat4
# 1: A0001  358 11.2500 37428    0
# 2: A0001  279 14.6875 38605    0
# 3: A0020  367  8.8750 37797    0
# 4: A0020  339  9.6250 39324    0

这也可以应用于基数R，但是我更喜欢data.table作为语法糖。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。