Python Pandas：根据第一列的内容对CSV文件进行排序

随机编码器

我有一个包含以下内容的CSV文件：

R10_0_yrdi_391    111    1.11    1.0    1.1    111.0
R10_0_yfyrn_9132    222    2.22    2.0    2.2    222.0
R10_0_hfeisk_3    333    3.33    3.0    3.3    333.0
R20_0_yrdi_391    444    4.44    4.0    4.4    444.0
R20_0_yfyrn_9132    555    5.55    5.0    5.5    555.0
R20_0_hfeisk_3    666    6.66    6.0    6.6    666.0

现在，我要生成一个新的CSV文件，该文件的第一列已排序，使得与R10_0和对应的相同R20_0值将并排放置：

R10_0_yrdi_391    111    1.11    1.0    1.1    111.0
R20_0_yrdi_391    444    4.44    4.0    4.4    444.0
R10_0_yfyrn_9132    222    2.22    2.0    2.2    222.0
R20_0_yfyrn_9132    555    5.55    5.0    5.5    555.0
R10_0_hfeisk_3    333    3.33    3.0    3.3    333.0
R20_0_hfeisk_3    666    6.66    6.0    6.6    666.0

另一个捕获是第一列的那个部分，R10_0_或者R20_0_是固定的，但是后面部分的长度是固定的。_yrdi_391，_yfyrn_9132或者_hfeisk_3是可变的。我试过使用：

f = df.columns.values.tolist()
df.sort_values(by=f[:1])

但是它的所有R10_0_和R20_0_在一起。

任何帮助将不胜感激。

耶斯列尔

我相信您需要sorted2个参数的功能，并按以下顺序更改顺序reindex：

#create index by first column by position
df = df.set_index(df.columns[0])
#create index by name of first column
#df = df.set_index('a')
a = sorted(df.index, key=lambda x: (x.split('_')[2:], x.split('_')[:2]), reverse=True)
df = df.reindex(a)
print (df)
                    b     c    d    e      f
a                                           
R20_0_yrdi_391    444  4.44  4.0  4.4  444.0
R10_0_yrdi_391    111  1.11  1.0  1.1  111.0
R20_0_yfyrn_9132  555  5.55  5.0  5.5  555.0
R10_0_yfyrn_9132  222  2.22  2.0  2.2  222.0
R20_0_hfeisk_3    666  6.66  6.0  6.6  666.0
R10_0_hfeisk_3    333  3.33  3.0  3.3  333.0

要么：

a = sorted(df.index, key=lambda x: (x.split('_')[2:], x.split('_')[:2]))
df = df.reindex(a)
print (df)

                    b     c    d    e      f
a                                           
R10_0_hfeisk_3    333  3.33  3.0  3.3  333.0
R20_0_hfeisk_3    666  6.66  6.0  6.6  666.0
R10_0_yfyrn_9132  222  2.22  2.0  2.2  222.0
R20_0_yfyrn_9132  555  5.55  5.0  5.5  555.0
R10_0_yrdi_391    111  1.11  1.0  1.1  111.0
R20_0_yrdi_391    444  4.44  4.0  4.4  444.0

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-15

我来说两句

0 条评论

登录后参与评论

使用Python根据选项卡分层文件中的第一列对行进行计数（不使用Pandas，Numpy等）

Pandas Python groupby 多列 - 根据具有特定值的第一列按列 2 中的值对行进行排序

Python Pandas：根据第一列的内容对CSV文件进行排序

Python Pandas：根据第一列的内容对CSV文件进行排序

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用