Pandas：如何将 MultiIndex DataFrame 与单个索引 DataFrame 连接起来，以及自定义排序

Jon 发表于 Dev

乔恩

我有一个 MultiIndex pandas DataFramedf_multi像：

import pandas as pd

df_multi = pd.DataFrame([['A', 'A1', 0,234,2002],['A', 'A1', 1,324,2550],
['A', 'A1', 2,345,3207],['A', 'A1', 3,458,4560],['A', 'A2', 0,569,1980],
['A', 'A2', 1,657,2314],['A', 'A2', 2,768,4568],['A', 'A2', 3,823,5761]], 
columns=['Product','Scenario','Time','Quantity','Price']).set_index(
['Product', 'Scenario'])

和单个索引数据帧，df_single如：

df_single = pd.DataFrame([['A', -3,100],['A', -2,100], ['A', -1,100]],
columns=['Product','Time','Quantity']).set_index(['Product'])

对于第一个索引级别中的每个“产品” df_multi，以及第二个级别中的每个“场景”，我想附加/连接中的行df_single，其中包含一些要附加在正“时间”之前的负“时间”值' 中的值df_multi。

我还希望生成的 DataFrame 首先由 ['Product','Scenario'] 进行多索引（就像df_multi），然后按 'Time' 的升序值对行进行排序。换句话说，想要的结果是：

df_result = pd.DataFrame([['A', 'A1', -3,100,'NaN'],['A', 'A1', -2,100,'NaN'],
['A', 'A1', -1,100,'NaN'],['A', 'A1', 0,234,2002],['A', 'A1', 1,324,2550],
['A', 'A1', 2,345,3207],['A', 'A1', 3,458,4560],['A','A2', -3,100,'NaN'],
['A', 'A2', -2,100,'NaN'],['A', 'A2', -1,100,'NaN'],['A', 'A2', 0,569,1980],
['A', 'A2', 1,657,2314],['A', 'A2', 2,768,4568],['A', 'A2', 3,823,5761]],
columns=['Product','Scenario','Time','Quantity','Price']).set_index(
['Product', 'Scenario'])

编辑：

df_single没有“场景”值，这可能会令人困惑。只要 'Product' 匹配，相同的行df_single就会被附加到中的每个场景df_multi，并且它们只是免费“继承”场景值。
我正在使用的实际数据帧相当大（每个产品几千个“产品”，几千个“场景”，每个场景几百个“时间”步骤，加上我没有在示例中写的额外列），所以我需要以完全自动化的（希望是快速的）方式来做到这一点。

我试图用所有join,concat和来实现这一点merge，但我没有成功。达到预期结果的最佳方法是什么？

完美的

考虑将索引重置为 a 的列merge，然后进行groupby聚合以仅返回每组一次并避免重复。之后，运行连接，concat，然后进行列排序并设置回多索引。

# MERGE AND AGGREGATION
df_temp = df_multi.reset_index().merge(df_single.reset_index(), on='Product', suffixes=['','_'])\
                                .groupby(['Product', 'Scenario', 'Time_'])['Quantity_'].max()\
                                .reset_index().rename(columns={'Time_':'Time','Quantity_':'Quantity'})

# ROW BIND CONCATENATION
df_final = pd.concat([df_multi.reset_index(), df_temp])\
                    .sort_values(['Product','Scenario', 'Time'])\
                    .set_index(['Product', 'Scenario'])[['Time', 'Quantity', 'Price']]
print(df_final)
#                   Time  Quantity   Price
# Product Scenario                        
# A       A1          -3       100     NaN
#         A1          -2       100     NaN
#         A1          -1       100     NaN
#         A1           0       234  2002.0
#         A1           1       324  2550.0
#         A1           2       345  3207.0
#         A1           3       458  4560.0
#         A2          -3       100     NaN
#         A2          -2       100     NaN
#         A2          -1       100     NaN
#         A2           0       569  1980.0
#         A2           1       657  2314.0
#         A2           2       768  4568.0
#         A2           3       823  5761.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-19

我来说两句

0 条评论

登录后参与评论

熊猫MultiIndex DataFrame排序

根据列值对具有MultiIndex的pandas DataFrame进行排序

Pandas：如何将 MultiIndex DataFrame 与单个索引 DataFrame 连接起来，以及自定义排序

Pandas：如何将 MultiIndex DataFrame 与单个索引 DataFrame 连接起来，以及自定义排序

Android Studio Kotlin：提取为常量

计算数据帧R中的字符串频率

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

TreeMap中的自定义排序

TYPO3：将 Formhandler 添加到新闻扩展

遍历元素数组以每X秒在浏览器上显示

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

无法连接网络并在Ubuntu 14.04中找到eth0

将辅助轴原点与主要轴对齐

我可以ping IPv6但不能ping IPv4

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

提交html表单时为空

使用C ++ 11将数组设置为零

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称

尝试在Dell XPS13 9360上安装Windows 7时出错

如何在R中转置数据

无法使用 envoy 访问 .ssh/config

未捕获的SyntaxError：带有Ajax帖子的意外令牌u