删除特定的列熊猫

观看直播

我有以下代码：

dfs = glob.glob(path + "/*.csv") 
df = pd.concat([pd.read_csv(df) for df in dfs], axis=1, ignore_index=False)
df1 = df.loc[:,~df.columns.duplicated()]
df1.to_csv("userpath.csv")

此代码的目的是获取全部来自同一数据库的随机/多个csv文件，并将它们彼此相邻合并。这些文件在相同的行中具有不同的列名，但在第一行中具有相同的代码。例如，一个csv文件将具有一个J1_01,J1_02,J2_01,J2_02.....，然后将与另一个合并的csv文件重复出现。J1_01,J1_02,J2_01,J2_02,J3_01....所有csv文件将具有不同的列。第二行提供该列值的标题描述。每个csv文件都有三列，这些列给出了行名称和行ID号的描述，例如：Id, Id2, Label Name。我要保留这三个的第一个实例，并删除其余重复项。我使用了代码df.loc[:,~df.columns.duplicated()]，因为J1_01,J1_02,J2_01,J2_02,J3_01....最终将随着新的csv文件合并而重复，因此我松散了一些列。有什么方法可以指定df.loc[:,~df.columns.duplicated()]代码，以便Id, Id2, Label Name在保留前三个重复项之后只删除三个特定的重复项？谢谢！作为后续问题，是否有人愿意提供帮助，如果我想用下划线替换每个列（“：”，“;”或空格）中存在的特定字符，是否可以用熊猫来做到这一点？再次感谢！

编辑：这是合并的csv文件的屏幕截图。

我想保留“ GEO.id”，“ GEO.id2”和“ Geo.displ”的第一个实例，并在重复这三列时删除。

HS星云

从您的图像看来，您要保留的列似乎是以开头的列GEO。为此，您可以使用regex匹配名称，然后获取这些列的索引，然后根据列索引拼接数据框。

import re

pattern = r'GEO' # or just "id" or whatever pattern best matches your data

# Returns list of indices that match your pattern
match_idx = [i for i, e in enumerate(df.columns) if re.search(pattern, e)]

# Select all but the first two columns (since you want to keep those)
drop_cols = match_idx[2:]

# Now choose all columns that don't match the indices of the columns you're dropping
usecols = [idx for idx, e in enumerate(df.columns) if idx not in drop_cols]

# Then select your data
df1 = df.iloc[:, usecols]

注意：如果您尝试选择单个列，例如df['GEO.id']，它将返回所有名为的列GEO.id，这就是为什么我们必须按索引而不是名称删除列的原因。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-2

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

删除特定的列熊猫

删除特定的列熊猫

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）