在MultiIndex列值上合并Pandas DataFrames

味精

我有两个多级列数据框。

import pandas as pd
df1 = pd.DataFrame({'col1':[1,1,2,2],'col2':[10,10,20,20]})
df1.columns = pd.MultiIndex.from_product([['df1_labels'],df1.columns])
df1

 df1_labels
   col1 col2
0   1   10
1   1   10
2   2   20
3   2   20

df2 = pd.DataFrame({'col3':[100,200],'col4':[10,20]})
df2.columns = pd.MultiIndex.from_product([['df2_labels'],df2.columns])
df2

   df2_labels
   col3  col4
0   100  10
1   200  20

我想将它们合并到df1的colunm'df1_labels','col2'和df2的列'df2_labels','col2'中。我的预期结果将是:

  df1_labels  df2_labels
  col1  col2  col3  col4
0   1   10    100    10
1   1   10    100    10
2   2   20    200    20
3   2   20    200    20

我已经试过了:

df3 = pd.merge(df1,df2, left_on=('df1_labels','col2'), right_on=('df2_labels','col4'))
df3

和这个:

df3 = pd.merge(df1,df2, left_on=['df1_labels','col2'], right_on=['df2_labels','col4'])
df3

两者都给我以下错误:

ValueError:列标签“ df2_labels”不是唯一的。对于多索引,标签必须是一个元组,其元素与每个级别相对应。

我在语法上一定做错了。对于单列级别,它可以工作:

pd.merge(pd.DataFrame({'col1':[1,1,2,2],'col2':[10,10,20,20]}),
         pd.DataFrame({'col3':[100,200],'col4':[10,20]}), 
         left_on='col2',right_on='col4')

 col1 col2 col3 col4
0   1   10  100 10
1   1   10  100 10
2   2   20  200 20
3   2   20  200 20

任何帮助都将受到欢迎!

耶斯列尔

对我来说,工作添加[]tuples

df = pd.merge(df1,df2, left_on=[('df1_labels','col2')], right_on=[('df2_labels','col4')])
print (df)
  df1_labels      df2_labels     
        col1 col2       col3 col4
0          1   10        100   10
1          1   10        100   10
2          2   20        200   20
3          2   20        200   20

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章