使用熊猫清理CSV数据

赫曼特·库玛（Hemant Kumar）

我有一个csv文件，如下所示：

                   100%Q,mean(ms),P50(ms),P99(ms),p99.9(ms),#Samples
QCT1,0.0376542  0.044935    0.090388    0.091279    1760105,,,,
QCT2,0.0489372  0.044953    0.090606    0.091422    1354230,,,,
QCT3,0.0447087  0.045008    0.046186    0.063825    123448,,,,
RCT,0.38646 0.38588 0.844293    1.01548 7295875,,,,
WCT,NA  NA  NA  NA  NA,,,,

我想清除标题上所有这些混乱的空间以及所有不必要的逗号，然后将其转换为另一个数据帧（无论它是逗号还是空格分隔的），以便我可以与另一个数据帧进行一些比较。

我已经尝试过一些事情，例如，删除几列并清理标题和所有内容，但是这是我目前使用pandas的结果：数据框在按Tab键分隔时看起来像下面：

import pandas as pd
df1=pd.read_csv("results/actual.csv",sep='\t')
df1


                         100%Q,mean(ms),P50(ms),P99(ms),p99.9(ms),#Samples
QCT1,0.03 0.05 0.09 0.09                                          5,,,,
QCT2,0.04 0.04 0.09 0.09                                          0,,,,
QCT3,0.04 0.08 0.04 0.06                                          8,,,,
RCT,0.3  0.3 0.8 1.01                                             5,,,,
WCT,NA NaN NaN NaN                                                NA,,,,

默认情况下，数据帧的进一步输出如下所示：

df2=pd.read_csv("results/actual.csv",usecols=range(0,6))
df2

100%Q mean(ms)                    P50(ms)   P99(ms)  p99.9(ms)  #Samples
QCT1  0.03\t0.05\t0.09\t0.09\t5    NaN      NaN      NaN        NaN
QCT2  0.04\t0.04\t0.09\t0.09\t0    NaN      NaN      NaN        NaN
QCT3  0.04\t0.08\t0.04\t0.06\t8    NaN      NaN      NaN        NaN
RCT   0.3\t0.3\t0.8\t0.01\t5       NaN      NaN      NaN        NaN
WCT   NA\tNA\tNA\tNA\tNA           NaN      NaN      NaN        NaN

我希望它看起来像这样：

100%Q    mean(ms)  P50(ms)   P99(ms)  p99.9(ms)  #Samples
QCT1     0.03      0.05      0.09     0.09       5
QCT2     0.04      0.04      0.09     0.09       0
QCT3     0.04      0.08      0.04     0.06       8
RCT      0.3       0.3       0.8      1.01       5
WCT      NA        NaN       NaN      NaN        NA

问题是多余的空格以及标头中的空格。有没有一种方法可以将其转换为具有通用定界符的数据帧。如果遇到这个问题并用Pandas解决了这个问题，那么有人可以帮助我，那就太好了。

注意：请忽略实际表中的值，因为我已将其调整为适合框架的格式，以使它看起来不错并且对每个人都有意义。

伊利亚

使用,分隔符读取文件，以便仅处理means(ms)列。接下来，您可以将多个空白合并为一个，' '.join(x.split())并使用将means(ms)空白内的所有值分割开split(' ')。使用列表推导将所有结果组合到列表列表中，然后插入1:数据框的列中。

df=pd.read_csv("results/actual.csv",sep=',')
df[df.columns[1:]] = [' '.join(x.split()).split(' ') for x in df['mean(ms)']]

如果内部的值means(ms)由制表符分隔，请使用：

df[df.columns[1:]] = [x.split('\t') for x in df['mean(ms)']]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-10

我来说两句

0 条评论

登录后参与评论

上一篇：如何在不将我的机器人托管在Azure中的情况下执行图身份验证？

熊猫csv-清理错误列中的数据

如何使用熊猫清理CSV中间的额外标题信息

使用apply + lambda清理熊猫中的数字数据

在熊猫中使用Regex进行数据清理

根据条件熊猫清理数据

清理Twitter数据熊猫python

使用数据流清理 CSV 文件中的数据

使用 Python 从 CSV 文件中提取信息/清理数据

使用Shellscript清理数据

使用熊猫在python中重塑CSV数据

清理熊猫数据框中的URL列

清理熊猫数据框中的dict列

如何使用数据框熊猫在python中转换数据csv

使用 VBA 宏清理数据

写入数据。csv熊猫

如何清理熊猫数据框列中的文本数据

如何清理从巨大的csv文件坏数据

使用熊猫从特殊条件的CSV文件中提取数据

无法使用熊猫解析字符串引用的csv数据

使用熊猫将“平面” csv数据转换为表格

大熊猫：使用键打印到csv数据框

熊猫-使用read_csv从Generator对象创建数据框

使用字典更新熊猫数据框或 csv

如何使用熊猫将CSV文件读取到数据帧

如何使用熊猫从CSV过滤掉非英语数据

如何使用修改过的熊猫数据框的csv更新postgreSQL？

使用熊猫读取csv数据中的某些列

re.match（）在清理熊猫数据框中

清理导入的熊猫数据框中的标头

TOP 榜单

文章

使用熊猫清理CSV数据

使用熊猫清理CSV数据

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）