根据某些行名称对数据框中的行进行分组和转置

SOK 发表于 Dev

许多

我有一个数据框，其中每一行都在网上刮擦了文本，其中包含体育选择信息（全部都在同一列中）。链接文章中的解决方案效果很好，但是由于文本中没有一致的模式，因此我发现了更多麻烦。这是我的DF：

print(df): 
Col A    

Race 1 - Handicap
14 - NAME
3  - NAME
5  - NAME
6  - NAME
4  - NAME
Race Overview: lorem ipsum etc etc
Race 2 - Sprint
12 - NAME
10 - NAME
8 - NAME
11 - NAME
Race Overview: Second lorem ipsum etc etc
Race 3 - Sprint
1  - NAME
14 - NAME
8  - NAME
6  - NAME
Race 4 - Handicap
1  - NAME
14 - NAME
8  - NAME
#Race numbers may run up to 15-20

我正在尝试将其转换为：

print(df):
Race Name             | Selection No    | Selection    | Race Overview

Race 1 - Handicap     |  1              |  14 - Name   | Race Overview: lorem ipsum etc etc
Race 1 - Handicap     |  2              |  3  - Name   | Race Overview: lorem ipsum etc etc
Race 1 - Handicap     |  3              |  5  - Name   | Race Overview: lorem ipsum etc etc
Race 1 - Handicap     |  4              |  6  - Name   | Race Overview: lorem ipsum etc etc
Race 1 - Handicap     |  5              |  4  - Name   | Race Overview: lorem ipsum etc etc
Race 2 - Sprint       |  1              |  12 - Name   | Race Overview: Second lorem ipsum etc etc
Race 2 - Sprint       |  2              |  10 - Name   | Race Overview: Second lorem ipsum etc etc
Race 2 - Sprint       |  3              |  8  - Name   | Race Overview: Second lorem ipsum etc etc
Race 2 - Sprint       |  4              |  11 - Name   | Race Overview: Second lorem ipsum etc etc
Race 3 - Sprint       |  1              |  1  - Name   | 
Race 3 - Sprint       |  2              |  14 - Name   | 
Race 3 - Sprint       |  3              |  8  - Name   | 
Race 3 - Sprint       |  4              |  6  - Name   | 
Race 4 - Sprint       |  1              |  1  - Name   | 
Race 4 - Sprint       |  2              |  14 - Name   | 
Race 4 - Sprint       |  3              |  8  - Name   |

如果图案是基于6行的重复圆柱，则此函数用于转置：

df2 = (
    pd.DataFrame(data = df['Col A'].values.reshape(-1, 6))
    .set_index([0, 5])
    .stack()
    .rename_axis(index=['Race Name','Race Overview','Selection No'])
    .to_frame('Selection')
    .reset_index()
)

是否需要在每行之间找到"Race [0-9] -"行，然后df2对每个模式运行以上行？

任何帮助将非常感激。谢谢！

耶斯列尔

采用：

#get Race values by pattern
df['Race Name'] = df['Col A'].where(df['Col A'].str.contains('Race [0-9]+ -'))
#get Selection values by pattern - starting numeric of original column
df['Selection'] = df['Col A'].where(df['Col A'].str.contains('^[0-9]+'))
#get info column
df['Race Overview'] = df['Col A'].where(df['Race Name'].isna() & df['Selection'].isna())

#forward and back filling per helper groups
s1 = df['Selection'].isna().cumsum()
s2 = df['Race Overview'].notna().iloc[::-1].cumsum()
df['Race Name'] = df.groupby(s1)['Race Name'].ffill()
df['Race Overview'] = df.groupby(s2)['Race Overview'].bfill()

#remove rows by missing values and also original column
df = df.dropna(subset=['Race Name', 'Selection']).drop('Col A', axis=1)
#added counter
df.insert(1, 'Selection No', df.groupby('Race Name').cumcount().add(1))

print (df)
            Race Name  Selection No  Selection  \
4   Race 1 - Handicap             1  14 - NAME   
5   Race 1 - Handicap             2  3  - NAME   
6   Race 1 - Handicap             3  5  - NAME   
7   Race 1 - Handicap             4  6  - NAME   
8   Race 1 - Handicap             5  4  - NAME   
11    Race 2 - Sprint             1  12 - NAME   
12    Race 2 - Sprint             2  10 - NAME   
13    Race 2 - Sprint             3   8 - NAME   
14    Race 2 - Sprint             4  11 - NAME   
17    Race 3 - Sprint             1  1  - NAME   
18    Race 3 - Sprint             2  14 - NAME   
19    Race 3 - Sprint             3  8  - NAME   
20    Race 3 - Sprint             4  6  - NAME   
22  Race 4 - Handicap             1  1  - NAME   
23  Race 4 - Handicap             2  14 - NAME   
24  Race 4 - Handicap             3  8  - NAME   

                                Race Overview  
4          Race Overview: lorem ipsum etc etc  
5          Race Overview: lorem ipsum etc etc  
6          Race Overview: lorem ipsum etc etc  
7          Race Overview: lorem ipsum etc etc  
8          Race Overview: lorem ipsum etc etc  
11  Race Overview: Second lorem ipsum etc etc  
12  Race Overview: Second lorem ipsum etc etc  
13  Race Overview: Second lorem ipsum etc etc  
14  Race Overview: Second lorem ipsum etc etc  
17                                        NaN  
18                                        NaN  
19                                        NaN  
20                                        NaN  
22                                        NaN  
23                                        NaN  
24                                        NaN

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：NUnit：在断言中使用对象之前，是否应该检查对象是否为null？

根据某些行名称对数据框中的行进行分组和转置

根据某些行名称对数据框中的行进行分组和转置

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath