熊猫按列大小总和分组

Pam 发表于 Dev

我有多个巨大的tsv文件，我正在尝试使用熊猫进行处理。我想按“ col3”和“ col5”分组。我已经试过了：

import pandas as pd
df = pd.read_csv('filename.txt', sep = "\t")
g1 = df.groupby(['col3', 'col5']).size()

到目前为止，它工作正常，并输出如下输出：

yes AB12 1
    FG14 1
no  nn18 1
    pp76 1

我希望我的输出像：

yes 2
no  2

我希望能够汇总来自多个文件的输出，即能够一次对所有文件中的这两列进行分组，并打印一个通用输出，总出现次数为“是”或“否”或任何可能的属性。

PS-假设我在col3中有重复项，而col5中有给定值，我希望将它们合并为一个且不计入两次。换句话说，如果AB12有两行，而col5中两行都为yes，我希望脚本将其计为1而不是2。

更新：

我通过执行以下操作删除了重复项：

g2 = df.drop_duplicates(['col3', 'col5'])
g3 = g2.groupby(['col3', 'col5']).size().sum(level=0)
print g3

我现在想一次对多个文件使用groupby。如果文件没有这些列之一，则应将其跳过，然后转到下一个文件。

在ajcr的答案和其他代码的帮助下，我能够通过执行以下操作删除基于两列的重复项

import pandas as pd
df = pd.read_csv('filename.txt', sep = "\t")
g2 = df.drop_duplicates(['col3', 'col5'])
g3 = g2.groupby(['col3', 'col5']).size().sum(level=0)
print g3

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-28

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用32位计算机在PHP中打印40位数字

大熊猫：按多列分组后创建单个大小和总和列

按熊猫分组的总和

熊猫数据框按两列分组，计数和总和

如何按分组总和划分熊猫列中的元素

熊猫分组按分组内的总和

在熊猫数据框上按总和分组

熊猫-按大小总和对MultIndex进行排序

熊猫：按两列分组以获得另一列的总和

熊猫按多列分组

熊猫按某些列分组

熊猫：按列元素分组

按熊猫指定的组大小分组索引

熊猫按条件按列值分组

熊猫如何在分组到另一列时按分组大小对分组依据进行排序

按列分组并找到其总和

获取按日期分组的列总和

sql总和按多列分组

熊猫-分组，汇总和缩放多个列的总和

如何将总和除以熊猫分组的大小

按列总和排序熊猫数据框

熊猫按组汇总和列排序

在其他列中与熊猫一起按+大小写分组

熊猫按3个变量分组，但总和超过2个

熊猫按列表总和分组-为LSTM准备

熊猫分组依据，总和和按类别绘制

对熊猫进行分组后按总和对值进行排序

熊猫：按两列或更多列分组

按一列分组，然后在熊猫中查找另一列的总和和最大值

对按另一列分组的熊猫数据框列值求和，然后用总和更新行并删除重复项

TOP 榜单

文章

熊猫按列大小总和分组

熊猫按列大小总和分组

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次