基于多列信息的数据框的条件转换、聚合/分组

用户1017373

说我的数据框如下所示，

df.head()
 col1   col2    col3    start   end gs
chr1    HAS GEN 11869   14409   DDX
chr1    HAS TRANS   11869   14409   Tp1
chr1    HAS EX  11869   12227   Tp2
chr1    HAS EX  12613   12721   Tp3
chr1    HAS EX  13221   14409   Tp4

我想将上述数据框或组按上述数据框转换为，

df_converted.head()
gs  chr      strt   end           ex_start           ex_end 
DDX chr1    11869   14409   11869, 12613,13221  12227,12721,14409

转换后的数据帧应该有两个附加列ex_start和ex_end，基于该列col3，start和end信息。因此，如果col3等于EX，则生成ex_start和ex_end列。但是，请保留 column 的第一个值gs。

我尝试制作列表并将它们连接在一起，但是，我没有解决这个问题，这是我尝试过的。

df.query('col3 == "EX"').groupby('gs').agg({'start': list})
gs  start
NA  [11869, 12613,13221]

但是，上面的一个班轮正在使用NAin生成带有一列列表的数据帧gs。不是第一个值。

逻辑：

如果col3等于EX，则生成ex_start并使用来自start逗号分隔列表的值。
1. 因此，如果col3等于EX，则生成第二个ex_end并使用来自end逗号分隔列表的值。
2. 始终取gs列的第一个值

任何帮助表示赞赏！

塞尔吉·巴列斯塔

好的，下面的代码将：

当列有值时开始一个新组gs
串联的值start和end为行列下列各组长具有'EX'在col3构建新的列的列

代码：

df1 = df.loc[~(df['gs'].isna()), ['gs', 'col2', 'start', 'end']].rename_axis({'col2': 'chr'}, axis=1)
df.loc[~(df['gs'].isna()), 'ix'] = df.loc[~(df['gs'].isna())].index
df['ix'].ffill(inplace=True)
df2 = df.loc[df['col3']=='EX', ['ix', 'start', 'end']].groupby(['ix']).agg(
        lambda x: ','.join([str(y) for y in x]))
df2.columns= ['ex_start', 'ex_end']
result = df1.join(df2)

结果数据框符合预期：

    gs  chr  start    end           ex_start             ex_end
0  DDX  HAS  11869  14409  11869,12613,13221  12227,12721,14409

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-25

我来说两句

0 条评论

登录后参与评论

上一篇：如何将 spring bean 注入休眠环境 RevisionListener

如何基于列分组重新索引python数据框

Spark数据框：基于列的数据透视和分组

熊猫数据框按多列分组

基于列条件的数据框列

设置基于数据框列值的值计数并按分组

基于数据框列的if-else条件

根据条件转换数据框的列

基于列约束处理熊猫数据框中的聚合

基于多列分组依据大小的Dask筛选器数据框

如何在熊猫数据框中基于多列值条件排除行？

基于多个删除行的条件对数据框进行分组

聚合基于无序三列的数据框

根据列中的值有条件地聚合具有不同功能的分组数据框

将熊猫分组/聚合结果转换为数据框

R 数据框基于每季度的列值有条件地聚合

基于多列值的条件子集数据框

基于R中的列值聚合数据框

基于多列条件增加熊猫数据框中的单元格值

基于多列更新数据框中的列

Pyspark 数据框：转换多列

Pandas 数据框，groupBy 聚合多列和多行

一次聚合数据框中的多列，计算不同列的不同统计信息 - R

基于列对数据框进行分组

每周聚合具有多列的数据框

Spatialpolygonsdataframe：基于其他列的聚合而不将其转换为数据框？在 r

Pandas：基于列值聚合数据框

TOP 榜单

文章

基于多列信息的数据框的条件转换、聚合/分组

基于多列信息的数据框的条件转换、聚合/分组

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用