熊猫groupby和sum，同时保留其他属性

sethds 发表于 Dev

塞斯

我已经看到了熊猫aggregate功能的例子，但是这些并不能解决我的问题。由于集合函数的示例将所有属性加总或仅将几个属性加总，因此结果df仅具有这些加总的属性或在中使用的属性groupby。就我而言，我不想为group by或sum使用某些属性，而仍将它们保留在result中df。

我正在尝试对一些属性进行分组和汇总，同时保留其他未汇总的属性，但面临如下所述的挑战。

在我的交易数据集中，Customer_ID每个客户entry time都是唯一的，每个交易都是唯一的。任何客户在一段时间内都会进行多次交易。大多数事务重复两次或更多次，具体取决于与事务关联的标签数量（但通常为2到4个标签）。我需要每个交易等多个项目结合起来，只有1行，1 customer_ID，一个gender，age，entry time，location，country和所有的标签属性。

如果仅按进行分组customer_ID，entry time然后对Tag求和，则结果数据框将具有正确的唯一客户数量：150K。但我失去的属性gender，age，location，country，exit time，value 1，value 2在由此而来df。

result = df.groupby(["customer_ID","entry time"])["Tag1", "Tag2","Tag3","Tag4","Tag5","Tag6","Tag7","Tag8"].sum().reset_index()

如果我按所有必需的属性分组并汇总Tag，则我只能获得90K唯一客户，这是不正确的。

result = df.groupby(["customer_ID", "entry time", "gender", "age","location", "country", "exit time", "value 1", "value 2"
 ])["Tag1","Tag2","Tag3","Tag4","Tag5","Tag6","Tag7","Tag8"].sum().reset_index()

那么，如何有效地仅对customer_ID和进行分组entry time，对所有Tag列求和，并仍然保留结果中的其他属性df（df大小约为700 MB）？

完善

从技术上讲，您正在尝试汇总唯一的customer_ID和输入时间（不是唯一的客户）。为了保持其他属性，必须做出一些汇总决定以保留哪些值。考虑延伸的groupby().aggregate调用来检索first，last，min或max值。

agg_df = (df.groupby(['customer_ID', 'entry time'], as_index=False)
            .aggregate({'gender':'first', 'age':'first', 
                        'location':'first', 'country':'first', 
                        'exit time':'first', 'value 1':'first', 'value 2':'first',
                        'Tag1':'sum', 'Tag2':'sum', 'Tag3':'sum', 'Tag4':'sum', 
                        'Tag5':'sum', 'Tag6':'sum', 'Tag7':'sum', 'Tag8':'sum'})
         )

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

熊猫groupby和sum，同时保留其他属性

熊猫groupby和sum，同时保留其他属性

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接