使用groupby过滤熊猫数据框

106

laurakurup：

我有一个大数据框（4000万行），并且如果值满足groupby对象中的条件，我想根据一列过滤出行。

例如，这是一些随机数据。“字母”列实际上将具有数千个唯一值：

     x   y   z  letter
0   47  86  30  e
1   58   9  28  b
2   96  59  42  a
3   79   6  45  e
4   77  80  37  d
5   66  91  35  d
6   96  31  52  d
7   56   8  26  e
8   78  96  14  a
9   22  60  13  e
10  75  82   9  d
11   5  54  29  c
12  83  31  40  e
13  37  70   2  c
14  53  67  66  a
15  76  33  78  d
16  64  67  81  b
17  23  94   1  d
18  10   1  31  e
19  52  11   3  d

在“字母”列上应用groupby，并为每个字母获取x列的总和：

df.groupby('letter').x.sum()
>>> a    227
    b    122
    c     42
    d    465
    e    297

然后，我排序以查看总和最高的字母，并手动确定阈值。在此示例中，阈值可能是200。

df.groupby('letter').x.sum().reset_index().sort_values('x', ascending=False)
>>> letter    x
3      d  465
4      e  297
0      a  227
1      b  122
2      c   42

这就是我被困住的地方。在原始数据帧中，如果列“ x”的groupby总和> 200，我想保留字母，然后删除其他行。因此，在此示例中，它将使所有行都带有d，e或a。

我正在尝试类似的方法，但是它不起作用：

df.groupby('letter').x.sum().filter(lambda x: len(x) > 200)

即使我过滤了groupby对象，如何使用它来过滤原始数据帧？

感想：

您可以groupby transform用来计算每一行的x的总和，并创建一个逻辑序列，其条件是您可以执行该子集：

df1 = df[df.x.groupby(df.letter).transform('sum') > 200]

df1.letter.unique()
# array(['e', 'a', 'd'], dtype=object)

或使用groupby.filter：

df2 = df.groupby('letter').filter(lambda g: g.x.sum() > 200)

df2.letter.unique()
# array(['e', 'a', 'd'], dtype=object)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-1

我来说两句

0 条评论

登录后参与评论

熊猫数据框过滤行像groupby

在熊猫中使用groupby过滤数据

使用ipywidgets过滤熊猫数据框

使用列表过滤熊猫数据框

使用函数过滤熊猫数据框

使用数据框中的熊猫过滤日期

Groupby 熊猫数据框

过滤熊猫数据框

熊猫：使用数据类型过滤数据框

熊猫数据框：使用计数功能过滤数据

熊猫数据框groupby并加入

过滤熊猫中的数据框

每天过滤熊猫数据框

动态过滤熊猫数据框

过滤熊猫数据框聚合

过滤熊猫数据框行

熊猫中的数据框过滤

使用groupby键作为熊猫数据框的索引

在熊猫数据框中使用groupby时如何连接设置？

使用groupby计算熊猫数据框中的总和

熊猫groupby并使用有序列扩大数据框

Python：使用groupby绘制熊猫数据框-奇怪的输出

在熊猫数据框中使用.groupby计算唯一值

使用字典中的值过滤熊猫数据框

使用多个布尔列过滤熊猫数据框

过滤熊猫中的数据框：使用条件列表

使用字典为列值过滤熊猫数据框

使用索引列表过滤熊猫数据框列表

如何使用groupby过滤数据框中的重复项？

TOP 榜单

文章

使用groupby过滤熊猫数据框

使用groupby过滤熊猫数据框

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序