熊猫数据透视表：通过aggfunc计算加权平均值

jlp 发表于 Dev

联合警察

我有一个关于教育和收入的大熊猫数据框，基本上看起来像这样。

import pandas as pd
import numpy as np

data = {
    'education': ['Low', 'High', 'High', 'Medium', 'Low', 'Low', 'High', 'Low', 'Medium', 'Medium'],
    'income': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'weights': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]
}
    
df = pd.DataFrame(data, columns=['education', 'income', 'weights'])

print(df)

  education  income  weights
0       Low       1       11
1      High       2       12
2      High       3       13
3    Medium       4       14
4       Low       5       15
5       Low       6       16
6      High       7       17
7       Low       8       18
8    Medium       9       19
9    Medium      10       20

我创建了一个数据透视表，用于计算每种教育类别的平均收入，如下所示：

pivot_educ_inc = pd.pivot_table(df, 
                                values='income',
                                index='education',
                                aggfunc=np.mean)

print(pivot_educ_inc)

             income
education          
High       4.000000
Low        5.000000
Medium     7.666667

我真正想要的是使用“我的权重”列来获得每个教育水平的加权收入方式。但是我找不到定义可以分配给aggfunc的加权均值函数的方法，并且可以做到这一点。

对于我来说，简单地创建一个加权数据集真的不方便（可能吗？），因为权重加起来超过1亿。另外，理想情况下，我想使用aggfunc参数，因为我的数据集中有更多列，例如教育，我想计算加权平均值，其中一些具有25个以上类别。

我可能完全忽略了这里的某些内容，但是我很困惑。

拉鲁巴斯托

我是的忠实拥护者pivot_table，因此在这里提供了使用它的解决方案：

pivot = df.pivot_table(values='income',
                       index='education',
                       aggfunc=lambda rows: np.average(rows, weights=df.loc[rows.index, 'weights']))

结果数据帧将如下所示：

             income
education          
High       4.333333
Low        5.433333
Medium     8.056604

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-27

我来说两句

0 条评论

登录后参与评论

上一篇：React-挂钩-多个按钮-如何将按下的按钮的ID传递给父组件

熊猫数据透视表/ groupby计算加权平均值

Excel数据透视表中的加权平均值

Pandas 数据透视表加权平均值

使用熊猫/数据框计算加权平均值

在熊猫数据框中计算加权平均值

如何在我的数据透视表中添加加权平均值？

熊猫数据框的年度加权平均值

使用熊猫/数据框基于2列计算加权平均值

从我的数据帧计算加权平均值

使用Pandas数据框计算加权平均值

熊猫累积加权平均值

如何计算加权平均值？

计算“修剪”加权平均值

熊猫：使用数据框和一系列数据按行计算加权平均值

熊猫：在一个数据框中交换特定的列值，并计算其加权平均值

熊猫-类似地按位计算，并据此计算加权平均值

Excel中通过数组公式计算非结构化数据的加权平均值

用熊猫计算加权平均值以降低成本

基于熊猫可变窗口的加权平均值

多列熊猫群加权平均值

获取熊猫中多个ID的加权平均值

通过GroupBy.agg和命名聚合计算加权平均值

在PySpark中计算加权平均值

如何计算时间加权平均值并产生滞后

如何计算非零值的加权平均值？

在Oracle中计算滚动加权平均值

在SQLite中按组计算加权平均值

在单个查询中计算加权平均值

计算 JSONB 键数组的加权平均值

TOP 榜单

文章

熊猫数据透视表：通过aggfunc计算加权平均值

熊猫数据透视表：通过aggfunc计算加权平均值

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成