Pandas - 如何识别列中两个值以特定顺序出现的数据组？

馅饼手肉汁

我有一个带有 ID、时间戳和值的 Pandas 数据框。每个 ID 有多行，按 ID 和时间戳升序排列。我需要确定两个值 - 'A' 和 'B' - 出现在每个 ID 的任意两行中的 ID，按该顺序。例如：-

ID       Timestamp      Value

001      00:01          A
001      00:02          B
001      00:03          B

002      00:01          B
002      00:02          A
002      00:03          B

003      00:01          B
003      00:02          A
003      00:03          A

上面，ID 001 和 002 符合条件，因为 A 在 ID 组中的某处位于 B 之前。ID 003 不符合条件，因为 A 永远不会在 B 之前。

每组 ID 将至少包含一个“A”和一个“B”，所以我知道如果“A”在前，那么它就符合条件。但是，如果“B”在前，则没有此类保证。

我曾尝试使用 idxmin 来定位每个值的第一次出现并比较位置，但我无法让它与 groupby 一起工作。我什至很难考虑使用循环来规避我的缺点，但如果有必要，我可以这样做 - 但是在我看来，必须有一种适当的 pythonic 方法来解决这个问题，我只是不知道它是什么。

非常感谢任何帮助或建议。谢谢！

科拉连

>>> df.sort_values("Timestamp") \           # mandatory for shift
      .groupby("ID")["Value"] \             # group by 'ID'
      .apply(lambda x: any(x > x.shift()))  # search B > A

ID
001     True
002     True
003    False
Name: Value, dtype: bool

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-28

我来说两句

0 条评论

登录后参与评论

上一篇：如何快速隐藏 UIView 并为 UITable 视图设置新高度？

TOP 榜单

文章

Pandas - 如何识别列中两个值以特定顺序出现的数据组？

Pandas - 如何识别列中两个值以特定顺序出现的数据组？

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u