根据R中另一列的条件从一列中删除重复项

本杰明·迪亚兹

我有一个数据集，我试图按订单周期计算保留客户的数量，但由于同一客户在多个时间段内订购的订单，数据集中有许多重复项，因此将它们作为新条目包含在内（观察）在数据集中。不幸的是，其中许多包含重复的 ID/人员编号，所以我想知道是否有任何类型的正则表达式或过滤器我可以使用来检查保留的列，然后如果保留的值相同，则删除重复的 ID/人员编号.

tibble::tribble(
                    ~PERSONUM,      ~ID, ~ORDER_PERIOD, ~retained,
                  10001685, 10109887,         "201750",       "Y",
                  10001685, 10109887,         "201850",       "Y",
                  10001685, 10109887,         "201950",       "Y",
                  10005733, 10162571,         "201550",       "Y",
                  10005787, 10112896,         "201550",       "Y",
                  10005795, 10112901,         "201550",       "Y",
                  10005795, 10112901,         "201650",       "Y",
                  10005795, 10112901,         "201750",       "Y",
                  10020043, 10156305,         "202050",       "Y",
                  10020165, 10122910,         "201750",       "Y",
                  10020165, 10122910,         "201850",       "Y",
                  10020649, 10123585,         "201550",       "N",
                  10028842, 10128545,         "201750",       "Y",
                  52300090, 10147580,         "201850",       "N",
                  52300740, 10149860,         "201650",       "N",
                  52300749, 10135925,         "201750",       "Y",
                  52300749, 10135925,         "201850",       "Y",
                  52300917, 10140173,         "201650",       "Y",
                  52300917, 10140173,         "201750",       "Y",
                  52300917, 10140173,         "201850",       "Y"
                  )

我正在考虑使用 df %>% filter(ID==ID) 但显然 ID 将始终等于自身，我知道有重复的功能，我已经考虑过使用类似的东西

df_cleaned <-df[!duplicated(df),]

但我需要代码来应用某种条件，首先查看保留的列。

滴滴涕

您可以使用dplyr的不同功能

df_cleaned <- df %>% distinct(PERSONUM, retained,.keep_all=TRUE)

上面的代码保留了具有不同“PERSONUM”和“retained”值的记录

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-13

我来说两句

0 条评论

登录后参与评论

上一篇：为什么这个 rust 代码在没有文件时挂起，但在文件存在时运行良好？

根据层次结构中的另一列删除一列中的重复项

根据另一列删除一列中的重复项

根据另一列（Python，Pandas）中的值删除一列的重复项

如何根据另一列的值查找和删除一列中的重复项？

重击：查找一列中的重复项，根据另一列的比较删除行

根据另一列的条件删除一列中重复的行

如何根据另一列的条件/分组删除一列中的连续重复行？

从一列而不是行中删除重复项

根据另一列中的唯一值查找一列中的重复项

根据另一列删除列中的重复单词

使用Dplyr从另一列中使用条件从另一列中删除重复项

根据条件从一列中提取数据并存储在另一列中

如何根据另一列的特定值从一列中删除NaN

R：根据同一列中的条件识别列中的重复项

根据另一列中的值删除一列中重复的行

删除重复项，并根据R中的另一列确定要删除的行的优先级

如何根据R中的条件将数据从一列复制到另一列？

根据另一列中的值从数据集中删除重复项

根据另一列的特定类别删除重复项

根据另一列的值删除重复项

根据另一列删除重复项

根据另一列的值删除一列中的重复信息

在条件基于另一列的情况下从熊猫数据框中删除重复项

根据另一列中的条件匹配删除重复行

如何删除与熊猫中另一列中的值相关的列中的重复项？

R：根据另一列中的值从一列中的拆分字符串中检索数据

如何根据psql中其他列的值删除一列中的重复项

将一个SQL列合并到另一列中，并删除重复项

根据另一列中的条件从一列获取所有值并自动更新

TOP 榜单

文章

根据R中另一列的条件从一列中删除重复项

根据R中另一列的条件从一列中删除重复项

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称