熊猫分组-创建通用聚合函数

绊倒数据科学

我需要对数据进行大量汇总，希望能够编写一个允许我通过的函数

1）用于分组的字符串2）将构成分子/分母/和公式的字段

由于我将使用不同的分组以及不同的分子和分母对数据进行大量削减，因此对我而言，创建通用组并将其传递给我所需的组将变得更加容易

因此，让我们看下面的例子：

import pandas as pd
df=pd.read_csv("https://raw.githubusercontent.com/wesm/pydata-book/master/ch08/tips.csv", sep=',')
(df.groupby(['sex', 'smoker'])[['total_bill','tip']].sum().apply(lambda r: r.tip/r.total_bill, axis = 1))

现在，我想创建一个函数，该函数允许我按值和分子分母字段传递组

因此，例如

groupbyvalue=['sex', 'smoker']
fieldstoaggregate=['tip','total_bill']

并将它们插入类似

(df.groupby(groupbyvalue)[fieldstoaggregate].sum().apply(lambda r: r.tip/r.total_bill, axis = 1))

效果很好，但是当我尝试将公式替换为以下内容时：

dfformula="r.tip/r.total_bill"

然后将其放在公式中，如下所示

(df.groupby(groupbyvalue)[fieldstoaggregate].sum().apply(lambda r: dfformula, axis = 1)*10000)

我的输出如下所示：

sex     smoker
Female  No        r.tip/r.total_billr.tip/r.total_billr.tip/r.to...
        Yes       r.tip/r.total_billr.tip/r.total_billr.tip/r.to...
Male    No        r.tip/r.total_billr.tip/r.total_billr.tip/r.to...
       Yes       r.tip/r.total_billr.tip/r.total_billr.tip/r.to...
dtype: object

有什么方法可以动态创建计算，然后在公式中使用它，而不是将其解释为字符串吗？

谢谢

忘记

您可以使用eval()功能来实现

import pandas as pd

df = pd.read_csv("https://raw.githubusercontent.com/wesm/pydata-book/master/ch08/tips.csv", sep=',')

groupbyvalue = ['sex', 'smoker']
fieldstoaggregate = ['tip','total_bill']
dfformula = "r.tip/r.total_bill"

(df.groupby(groupbyvalue)[fieldstoaggregate].sum().apply(lambda r: eval(dfformula), axis = 1))

输出如下

sex     smoker
Female  No        0.153189
        Yes       0.163062
Male    No        0.157312
        Yes       0.136919
dtype: float64

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-05-10

我来说两句

0 条评论

登录后参与评论

熊猫-分组依据：使用多列创建聚合函数

熊猫聚合分组

熊猫：按功能分组并聚合

按熊猫分组创建两个聚合列

熊猫中多个列上的分组聚合

带有聚合的列上的熊猫分组

熊猫：聚合后加入分组键

聚合/分组使用pymongo与使用熊猫

对熊猫进行分组分组聚合，并根据受欢迎程度对创建的列表进行排序

熊猫分组数据框并创建嵌套的json

熊猫：创建按列分组的箱线图

熊猫：使用分组数据创建滞后列

为分组的熊猫数据框创建散点图

熊猫根据分组创建新列

熊猫从几个分组创建新数据框

从分组的熊猫系列创建晶须图

熊猫：具有多种功能的分组和聚合

熊猫使用两个（或更多值）分组聚合

datetime列的简化熊猫分组方式聚合

熊猫：groupby和聚合，而不会丢失被分组的列

具有聚合功能的分组依据是熊猫的新领域

聚合操作后取消分组熊猫数据框

如何计算熊猫中列的分组和加权聚合？

熊猫分组但保留原始索引并重复聚合值

重采样/分组依据中的熊猫聚合列表

将熊猫分组/聚合结果转换为数据框

分组和聚合熊猫DataFrame以获取摘要DataFrame

根据通用密钥对熊猫数据框进行分组

通过创建新列将熊猫数据框分组

TOP 榜单

文章

熊猫分组-创建通用聚合函数

熊猫分组-创建通用聚合函数

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID