尝试使用相同值出现在多列中的 cumsum() 熊猫数据框

克拉兹库杜

我正在尝试使用 groupby 获得累积总和，其中累积总和应用于包含相同值的多个列

import pandas as pd
import numpy as np

df = pd.DataFrame([['Jazz', 'Clippers', 89, 100],
                              ['Clippers' , 'Jazz', 101, 97],
                              ['Bucks' , 'Jazz', 99, 112],
                              ['Jazz' , 'Bucks', 109, 88]],
                      columns=['home_team', 'away_team', 'home_points', 'away_points'])
print(df)

这将产生一个输出为的数据帧

  home_team away_team  home_points  away_points
0      Jazz  Clippers           89          100
1  Clippers      Jazz          101           97
2     Bucks      Jazz           99          112
3      Jazz     Bucks          109           88

我想要做的是获得主客队的累计总分，这将说明每支球队都出现在主客场列中的事实，但我所能弄清楚的只是按以下分组的累计总分球队名称，将每支球队作为主场或客场总计，就像这样

df["home_cumulative_points"]= df.groupby(["home_team"])["home_points"].cumsum() 
df["away_cumulative_points"]= df.groupby(["away_team"])["away_points"].cumsum() 
print(df)

产生

  home_team away_team  home_points  away_points  home_cumulative_points  away_cumulative_points
0      Jazz  Clippers           89          100                      89                     100
1  Clippers      Jazz          101           97                     101                      97
2     Bucks      Jazz           99          112                      99                     209
3      Jazz     Bucks          109           88                     198                      88

有没有什么方法可以让我在主客场列中对同一支球队的存在进行累计总和帐户，以使总和加上球队的积分，无论他们是主场还是客场？所以最后一行的理想输出是

  home_team away_team  home_points  away_points  home_cumulative_points  away_cumulative_points
3      Jazz     Bucks          109           88                     407                      187

我猜我可能需要做一个 for 循环或其他什么，但我不确定如何最好地去做。提前感谢您的任何反馈！

耶斯列

想法是只选择必要的列，由_for分割，由MultiIndexreshape by DataFrame.stack，因此可以同时使用cumsum每列：

cols = ['home_team', 'away_team', 'home_points', 'away_points']

df1 = df[cols].copy()
df1.columns = df1.columns.str.split('_', expand=True)
df1 = df1.stack(0).rename_axis(['lev1','lev2'])
df1["cumulative_points"]= df1.groupby(["team", 'lev1'])["points"].cumsum() 

df2 = df1.unstack()
df2.columns = df2.columns.map(lambda x: f'{x[1]}_{x[0]}')
print(df2)
      away_points  home_points away_team home_team  away_cumulative_points  \
lev1                                                                         
0             100           89  Clippers      Jazz                     100   
1              97          101      Jazz  Clippers                      97   
2             112           99      Jazz     Bucks                     112   
3              88          109     Bucks      Jazz                      88   

      home_cumulative_points  
lev1                          
0                         89  
1                        101  
2                         99  
3                        109

或者：

df["home_cumulative_points"]= df1.loc['home', 'cumulative_points']
df["away_cumulative_points"]= df1.loc['away', 'cumulative_points']

另一种方法是使用concatwith renamefor reshape：

f = lambda x: x.split('_')[1]
df1 = pd.concat([df[['home_team', 'home_points']].rename(columns=f),
                 df[['away_team', 'away_points']].rename(columns=f)], keys=('home','away'))
df1 = df1.rename_axis(['lev1','lev2'])
df1["cumulative_points"]= df1.groupby(["team", 'lev1'])["points"].cumsum()

df["home_cumulative_points"]= df1.loc['home', 'cumulative_points']
df["away_cumulative_points"]= df1.loc['away', 'cumulative_points']
print(df)
  home_team away_team  home_points  away_points  home_cumulative_points  \
0      Jazz  Clippers           89          100                      89   
1  Clippers      Jazz          101           97                     101   
2     Bucks      Jazz           99          112                      99   
3      Jazz     Bucks          109           88                     198   

   away_cumulative_points  
0                     100  
1                      97  
2                     209  
3                      88

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-31

我来说两句

0 条评论

登录后参与评论

上一篇：如何在使用 ffmpeg/fluidsynth 从 MIDI 文件转换为 mp3 时更改音频的比特率

尝试使用相同值出现在多列中的 cumsum() 熊猫数据框

尝试使用相同值出现在多列中的 cumsum() 熊猫数据框

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用