我有一个大数据框(4000万行),并且如果值满足groupby对象中的条件,我想根据一列过滤出行。
例如,这是一些随机数据。“字母”列实际上将具有数千个唯一值:
x y z letter
0 47 86 30 e
1 58 9 28 b
2 96 59 42 a
3 79 6 45 e
4 77 80 37 d
5 66 91 35 d
6 96 31 52 d
7 56 8 26 e
8 78 96 14 a
9 22 60 13 e
10 75 82 9 d
11 5 54 29 c
12 83 31 40 e
13 37 70 2 c
14 53 67 66 a
15 76 33 78 d
16 64 67 81 b
17 23 94 1 d
18 10 1 31 e
19 52 11 3 d
在“字母”列上应用groupby,并为每个字母获取x列的总和:
df.groupby('letter').x.sum()
>>> a 227
b 122
c 42
d 465
e 297
然后,我排序以查看总和最高的字母,并手动确定阈值。在此示例中,阈值可能是200。
df.groupby('letter').x.sum().reset_index().sort_values('x', ascending=False)
>>> letter x
3 d 465
4 e 297
0 a 227
1 b 122
2 c 42
这就是我被困住的地方。在原始数据帧中,如果列“ x”的groupby总和> 200,我想保留字母,然后删除其他行。因此,在此示例中,它将使所有行都带有d,e或a。
我正在尝试类似的方法,但是它不起作用:
df.groupby('letter').x.sum().filter(lambda x: len(x) > 200)
即使我过滤了groupby对象,如何使用它来过滤原始数据帧?
您可以groupby
transform
用来计算每一行的x的总和,并创建一个逻辑序列,其条件是您可以执行该子集:
df1 = df[df.x.groupby(df.letter).transform('sum') > 200]
df1.letter.unique()
# array(['e', 'a', 'd'], dtype=object)
或使用groupby.filter
:
df2 = df.groupby('letter').filter(lambda g: g.x.sum() > 200)
df2.letter.unique()
# array(['e', 'a', 'd'], dtype=object)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句