ID Cat1 Cat2 Cat3 Cat4
A0001 358 11.25 37428 0
A0001 279 14.6875 38605 0
A0013 367 5.125 40152 1
A0014 337 16.3125 38624 0
A0020 367 8.875 37797 0
A0020 339 9.625 39324 0
我需要学习如何在保留重复项或三重复项的同时删除文件中的唯一行的帮助。例如,输出应如下所示:
ID Cat1 Cat2 Cat3 Cat4
A0001 358 11.25 37428 0
A0001 279 14.6875 38605 0
A0020 367 8.875 37797 0
A0020 339 9.625 39324 0
如果您能给我建议如何解决这个问题,不胜感激。
感谢大家的建议。我想计算重复度量(通过唯一ID)在不同类别(即Cat2,Cat 3)中的值差异。将不胜感激任何建议。
基础R中的另一个选项 duplicated
dx[dx$ID %in% dx$ID[duplicated(dx$ID)],]
# ID Cat1 Cat2 Cat3 Cat4
# 1 A0001 358 11.2500 37428 0
# 2 A0001 279 14.6875 38605 0
# 5 A0020 367 8.8750 37797 0
# 6 A0020 339 9.6250 39324 0
使用duplicated
和fromLast
获得的版本:
library(data.table)
setkey(setDT(dx),ID) # or with data.table 1.9.5+: setDT(dx,key="ID")
dx[duplicated(dx) |duplicated(dx,fromLast=T)]
# ID Cat1 Cat2 Cat3 Cat4
# 1: A0001 358 11.2500 37428 0
# 2: A0001 279 14.6875 38605 0
# 3: A0020 367 8.8750 37797 0
# 4: A0020 339 9.6250 39324 0
这也可以应用于基数R,但是我更喜欢data.table作为语法糖。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句