有条件地对大熊猫groupby对象中的值进行计数

山姆·康伯

我有一个pandas.core.groupby.DataFrameGroupBy在那里我试图计算行其中一个值的数量对象TOTAL_FLOOR_AREA是> 30。我可以使用以下方法计算groupby对象中每个数据框的行数：

import numpy as np

grouped = master_lsoa.groupby('lsoa11')

grouped.aggregate(np.count_nonzero).TOTAL_FLOOR_AREA

但是，如何有条件地对TOTAL_FLOOR_AREA大于30的行进行计数？

山姆

耶斯列尔

我认为您需要：

np.random.seed(6)

N = 15
master_lso = pd.DataFrame({'lsoa11': np.random.randint(4, size=N),
                           'TOTAL_FLOOR_AREA': np.random.choice([0,30,40,50], size=N)})
master_lso['lsoa11'] = 'a' + master_lso['lsoa11'].astype(str)
print (master_lso)
    TOTAL_FLOOR_AREA lsoa11
0                 40     a2
1                 50     a1
2                 30     a3
3                  0     a0
4                 40     a2
5                  0     a1
6                 30     a3
7                  0     a2
8                 40     a0
9                  0     a2
10                 0     a1
11                50     a1
12                50     a3
13                40     a1
14                30     a1

首先按条件筛选行boolean indexing-分组之前速度更快，因为行较少。

df = master_lso[master_lso['TOTAL_FLOOR_AREA'] > 30]
print (df)
    TOTAL_FLOOR_AREA lsoa11
0                 40     a2
1                 50     a1
4                 40     a2
8                 40     a0
11                50     a1
12                50     a3
13                40     a1

然后groupby合计size：

df1 = df.groupby('lsoa11')['TOTAL_FLOOR_AREA'].size().reset_index(name='Count')
print (df1)
  lsoa11  Count
0     a0      1
1     a1      3
2     a2      2
3     a3      1

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。