根据其他列的值为Pandas Dataframe创建列

阿西夫·伊克巴尔（Asif Iqbal）：

我正在使用Python3.7和Pandas v0.25.3。我有一个这样的数据框，

pri_col col1 col2        Date
     r1    3    4  2020-09-10
     r2    4    1  2020-09-10
     r1    2    7  2020-09-11
     r3    6    4  2020-09-11

我想要类似的东西

pri_col col1_2020-09-10 col2_2020-09-10 col1_2020-09-11 col2_2020-09-11
   r1               3               4             NaN             NaN
   r2               4               1             NaN             NaN
   r1             NaN             NaN               2               7
   r3             NaN             NaN               6               4

我尝试了以下代码：

import pandas as pd
df = pd.DataFrame([['r1', '3', '4', '2020-09-10'], ['r2', '4', '1', '2020-09-10'], ['r1', '2', '7', '2020-09-11'], ['r3', '6', '4', '2020-09-11']], columns=['pri_col', 'col1', 'col2', 'Date'])
print(df)
df_list = list()
for key, item in df.groupby('Date'):
    item = item.drop('Date', axis=1)
    item.columns = ['pri_col']+[str(x)+'_'+str(key) for x in item.columns if x != 'pri_col']
    df_list.append(item)
finDf = pd.concat(df_list, sort=False)
print(finDf)

但是，此代码并未针对大型数据帧进行优化。是否可以在熊猫中对此应用程序进行矢量化实现？如果代码是矢量化的，多层数据帧对我也很好。在顶层，我可以具有“日期”列的值，在顶层，我可以具有列的值。

耶斯雷尔：

用进行重塑DataFrame.set_index，DataFrame.stack并且DataFrame.unstack是第一个想法，需要将其展平MultiIndex：

df = (df.set_index(['pri_col','Date'], append=True)
        .stack()
        .unstack([3,2])
        )
df.columns = [f'{a}-{b}' for a, b in df.columns]
df = df.reset_index(level=1).
print (df)
  pri_col  col1-2020-09-10  col2-2020-09-10  col1-2020-09-11  col2-2020-09-11
0      r1              3.0              4.0              NaN              NaN
1      r2              4.0              1.0              NaN              NaN
2      r1              NaN              NaN              2.0              7.0
3      r3              NaN              NaN              6.0              4.0

或通过DataFrame.melt和重塑DataFrame.pivot：

df = (df.reset_index()
        .melt(id_vars=['index','pri_col','Date'], 
              var_name='cols',
              value_name='val')
        .pivot(index=['index','pri_col'],
               columns=['cols','Date'],
               values='val'))
df.columns = [f'{a}-{b}' for a, b in df.columns]
df = df.reset_index(level=1).rename_axis(None)
print (df)
  pri_col  col1-2020-09-10  col1-2020-09-11  col2-2020-09-10  col2-2020-09-11
0      r1              3.0              NaN              4.0              NaN
1      r2              4.0              NaN              1.0              NaN
2      r1              NaN              2.0              NaN              7.0
3      r3              NaN              6.0              NaN              4.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。