熊猫，使用groupby值创建新列

赫里斯托·斯托伊切夫

我有DF：

Col1   Col2    Label
0      0        5345
1      0        7574
2      0        3445
0      1        2126
1      1        4653
2      1        9566

所以我试图在Col1和Col2上进行分组，以基于Label列获取索引值，如下所示：

df_gb = df.groupby(['Col1','Col2'])['Label'].agg(['sum', 'count']) 
df_gb['sum_count'] = df_gb['sum'] / df_gb['count']
sum_count_total = df_gb['sum_count'].sum() 
index = df_gb['sum_count'] / 10 

Col2  Col1       
0     0          2.996036
      1          3.030063
      2          3.038579

1     0          2.925314
      1          2.951295
      2          2.956083

2     0          2.875549
      1          2.899254
      2          2.905063

到目前为止，一切都如我所料。但是现在我想根据这两个groupby列将此“索引” groupby df分配给我的原始“ df”。如果只有一列，则使用map（）函数，但如果我想基于两列顺序分配索引值，则不会。

df_index = df.copy()
df_index['index'] = df.groupby([]).apply(index)
TypeError: 'Series' objects are mutable, thus they cannot be hashed

尝试了agg（）和transform（），但没有成功。任何想法如何进行？

提前致谢。布里斯托

耶斯列尔

我相信您需要join：

a = df.join(index.rename('new'), on=['Col1','Col2'])
print (a)
   Col1  Col2  Label    new
0     0     0   5345  534.5
1     1     0   7574  757.4
2     2     0   3445  344.5
3     0     1   2126  212.6
4     1     1   4653  465.3
5     2     1   9566  956.6

或GroupBy.transform：

df['new']=df.groupby(['Col1','Col2'])['Label'].transform(lambda x: x.sum() / x.count()) / 10
print (df)
   Col1  Col2  Label    new
0     0     0   5345  534.5
1     1     0   7574  757.4
2     2     0   3445  344.5
3     0     1   2126  212.6
4     1     1   4653  465.3
5     2     1   9566  956.6

如果没有NaNS中Label从柱使用的解决方案零的建议，谢谢：

df.groupby(['Col1','Col2'])['Label'].transform('mean') / 10

如果需要NaN通过count使用解决方案仅计算非s值transform。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-19

我来说两句

0 条评论

登录后参与评论

上一篇：有无序集合的Python数据类型吗？

从熊猫DF列名和值创建新列

熊猫：根据现有列中的值创建新列

熊猫合并列以使用逗号分隔的值创建新列

如何从熊猫数据框的列值创建新行

熊猫使用groupby的计数创建新列

熊猫根据其他列的值创建新的列ID

熊猫：将值上的列分组并创建新的列标题

熊猫groupby并添加新列

熊猫使用groupby转换创建布尔列

从文本中提取年龄值以在熊猫中创建新列

Python熊猫使用自定义agg函数通过groupby创建新列

使用groupby创建具有最大值的新列

熊猫根据行值创建新列（条件）

根据熊猫中groupby元素的大小创建新列

Pandas Groupby并使用自定义值创建新列

使用groupby的一列创建带有熊猫的X个新列

如何根据熊猫中的行值创建新列

使用groupby并合并以在熊猫中创建新列

如何在熊猫中使用groupby创建新列？

熊猫使用其他列中的值创建新列，并根据列值进行选择

熊猫-使用groupby创建另一列的最后N个值的总和来创建新列

在pyspark中使用groupby基于过滤的行创建具有最大值的新列

使用数学和现有列在熊猫数据框中创建新值

熊猫使用groupby创建新列并避免循环

熊猫：使用其他列子组中的值创建新列

创建一个新列并使用groupby开始为每个组分配值

根据 groupby 班次更改列的值并创建新列 - Pandas

熊猫从现有列值创建新列

如何使用熊猫从现有列中的值创建新的二分列

TOP 榜单

文章

熊猫，使用groupby值创建新列

熊猫，使用groupby值创建新列

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）