在熊猫分组中排序(多索引)

Jbachlombardo

编辑:放入样本数据df和预期的输出。编辑2:我对数据进行了一些修改,以使结果在每种情况下都不都是与“ cc”相关联的最大数字。

我的问题是:

  • 我有一个数据框,其中有两个索引列,分别按(索引1,索引2)和三个列(X,Y,Z)分组
  • 我创建了一个groupby并对其应用了一个函数(将groupby对象中的所有列缩放为1)
  • 我对结果数据框求和,以获得每一行的总和

df为:

df = pd.DataFrame({'Index1': ['A', 'A', 'A', 'B', 'B', 'B'],
                'Index2': ['aa', 'bb', 'cc', 'aa', 'bb', 'cc'],
                'X': [1, 2, 7, 3, 6, 1],
                'Y': [2, 3, 6, 2, 4, 1],
                'Z': [3, 5, 9, 1, 2, 1]})

然后代码是:

df_scored = pd.DataFrame()   #new df to hold results
cats = [X, Y, Z]             #categories (columns of df) to be scaled
grouped = df.groupby([Index 1, Index 2]).sum()
for cat in cats :
    df_scored[cat] = grouped.groupby(level = 0)[cat].apply(lambda x: x / x.max())
df_scored['Score'] = df_scored.sum(axis = 1)

这将产生:

                      X         Y         Z     Score
Index1 Index2                                        
A      aa      0.142857  0.333333  0.333333  0.809524
       bb      0.285714  0.500000  0.555556  1.341270
       cc      1.000000  1.000000  1.000000  3.000000
B      aa      0.500000  0.500000  0.500000  1.500000
       bb      1.000000  1.000000  1.000000  3.000000
       cc      0.166667  0.250000  0.500000  0.916667

现在,我想按索引1的每个分组对结果df_scored排序(以便索引2在索引1的每个组内按“分数”排序),并以此作为所需结果:

                      X         Y         Z     Score
Index1 Index2                                        
A      cc      1.000000  1.000000  1.000000  3.000000
       bb      0.285714  0.500000  0.555556  1.341270
       aa      0.142857  0.333333  0.333333  0.809524
B      bb      1.000000  1.000000  1.000000  3.000000
       aa      0.500000  0.500000  0.500000  1.500000
       cc      0.166667  0.250000  0.500000  0.916667

我该怎么做呢?

我在这里这里都已经看到了其他一些问题,但是在这种情况下却没有使它对我有用。

社交病

在代码末尾添加

df_scored.sort_values('Score', ascending= False).sort_index(level='Index1', sort_remaining=False)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章