熊猫：在每组中创建均值偏离的列

T_T 发表于 Dev

T_T

考虑一下DataFramePython中的以下内容：

import pandas as pd
df = pd.DataFrame({'id':[0]*3+[1]*3,'y':np.random.randn(6),'x':np.random.randn(6)})

这使

   id         y         x
0   0  0.721757  1.595646
1   0  0.359601  1.128473
2   0  1.134922  2.317929
3   1  0.290152 -1.901336
4   1  0.128742  0.982683
5   1  0.556914  0.745208

请注意，y和x根据分组id。我要创建以下内容DataFrame

   id         y         x      y_md      x_md
0   0  0.721757  1.595646 -0.017003 -0.085037
1   0  0.359601  1.128473 -0.379159 -0.552209
2   0  1.134922  2.317929  0.396162  0.637246
3   1  0.290152 -1.901336 -0.035117 -1.843521
4   1  0.128742  0.982683 -0.196527  1.040498
5   1  0.556914  0.745208  0.231644  0.803023

哪里

y_md包含偏离其组平均值（id= 0＆1）的值
x_md包含偏离其组平均值（id= 0＆1）的值

我想出的是

df_g = df.groupby('id')
yy = pd.Series( df['y'].values - df_g['y'].mean().repeat(3).values )
xx = pd.Series( df['x'].values - df_g['x'].mean().repeat(3).values )
pd.concat([df,yy.rename('y_md'), xx.rename('x_md')],axis=1)

但这对我来说并不好。我想知道是否有一个优雅的班轮或类似的结果吗？多谢您的协助。

耶斯列尔

使用GroupBy.transform用于处理多个栏目，通过减DataFrame.sub，改列名通过DataFrame.add_suffix并追加到原来的DataFrame.join：

c = ['x','y']
df = df.join(df[c].sub(df.groupby('id')[c].transform('mean')).add_suffix('_md'))
print (df)
   id         y         x      x_md      y_md
0   0  0.721757  1.595646 -0.085037 -0.017003
1   0  0.359601  1.128473 -0.552210 -0.379159
2   0  1.134922  2.317929  0.637246  0.396162
3   1  0.290152 -1.901336 -1.843521 -0.035117
4   1  0.128742  0.982683  1.040498 -0.196527
5   1  0.556914  0.745208  0.803023  0.231645

或者可以分配新的列名称：

df[['x_md','y_md']] = df[['x','y']].sub(df.groupby('id')[['x','y']].transform('mean'))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-24

我来说两句

0 条评论

登录后参与评论

上一篇：如何在Qt C ++中更新QWindow，文本不显示

在熊猫数据框中创建组均值列

对熊猫中每组的几个列值求和

熊猫将每组中两列之间的差异求和

如何在每组熊猫groupby对象中添加标志列

如何在熊猫中为不同子集元素创建滚动均值列？

PySpark 中每组的平均值

返回每行中每组的平均值

计算每组熊猫df的滚动平均值

在熊猫中，如何根据另一列的平均值创建具有等级的新列

Pandas/Python groupby 然后计算每组中另一列的平均值

熊猫：创建一个从1到每组长度的列

某些列的熊猫均值

在CSV中创建多个均值列

在熊猫中创建条件列

在熊猫中创建列配对

熊猫：分组的DataFrame-将列的值除以每组中该列内某行的值

计算熊猫数据中每组的行数

熊猫如何检查每组中列值之间的差异是否在范围内

熊猫在每组中按列值排序的前N条记录

使用熊猫计算均值时排除列中的零

熊猫中的按列滚动平均值

扩展均值按熊猫中的多个列分组

取熊猫中不止一列的平均值

在熊猫中以均值取一列，然后以另一列取平均值

从熊猫列中的列表创建多列

dplyr (R) - 每组一列的平均值

data.frame中每组的平均值

在计算平均值之前选择每组中的元素数

在熊猫行中扩大均值

TOP 榜单

文章

熊猫：在每组中创建均值偏离的列

熊猫：在每组中创建均值偏离的列

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath