使用Pandas GroupBy从多个列中聚合唯一值

Nithrynx：

我进入了无数线程（1 2 3 ...），但仍然找不到解决问题的方法...我有一个这样的数据框：

prop1 prop2 prop3    prop4 
L30   3     bob      11.2
L30   54    bob      10
L30   11    john     10
L30   10    bob      10
K20   12    travis   10 
K20   1     travis   4 
K20   66    leo      10

我想对prop1和AND进行分组，同时，将所有其他列汇总，但仅包含唯一值。像那样：

prop1  prop2       prop3       prop4
L30    3,54,11,10  bob,john    11.2,10
K20    12,1,66     travis,leo  10,4

我尝试了不同的方法：

df.groupby('prop1')['prop2','prop3','prop4'].apply(np.unique) 退货

AttributeError：'numpy.ndarray'对象没有属性'index'加上TypeError：Series.name必须是可哈希的类型

另外：.apply(lambda x: pd.unique(x.values.ravel()).tolist())它给出一个列表作为输出，我想要列。
df.groupby('prop1')['prop2','prop3','prop4'].unique() 本身不起作用，因为有多个列。
.apply(f) f为：

def f(df): df['prop2']=df['prop2'].drop_duplicates() df['prop3']=df['prop3'].drop_duplicates() df['prop4']=df['prop4'].drop_duplicates() return df

什么也没做

我也尝试使用.agg()不同的选项，但没有成功。

你们当中有一个有想法吗？

非常感谢你：）

cs95：

使用groupby和agg，并通过调用Series.unique以下命令仅汇总唯一值：

df.astype(str).groupby('prop1').agg(lambda x: ','.join(x.unique()))

            prop2       prop3      prop4
prop1                                   
K20       12,1,66  travis,leo   10.0,4.0
L30    3,54,11,10    bob,john  11.2,10.0

df.astype(str).groupby('prop1', sort=False).agg(lambda x: ','.join(x.unique()))

            prop2       prop3      prop4
prop1                                   
L30    3,54,11,10    bob,john  11.2,10.0
K20       12,1,66  travis,leo   10.0,4.0

如果处理NaN很重要，请fillna提前致电：

import re
df.fillna('').astype(str).groupby('prop1').agg(
    lambda x: re.sub(',+', ',', ','.join(x.unique()))
)

            prop2       prop3      prop4
prop1                                   
K20       12,1,66  travis,leo   10.0,4.0
L30    3,54,11,10    bob,john  11.2,10.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。