按多列分组并在 for 循环中返回一列的 SUM

Datacrawler 发表于 Dev

数据爬虫

我有一个包含许多列的 csv 文件。对于此处的示例，我总共使用了 6 列：

我正在使用 Python3 和 Pandas（我不太熟悉）。
我的主要目标是在当前文件中烘焙数据后创建一个新的 csv 文件（如上所示）。我想分步骤做的事情：

01) 聚合数据：首先，将每个 ID 的行分组并具有：

每个ID的最早开始日期
每个ID的最新结束日期
每个ID的值的总和

02）将每个ID的行和我选择的任何随机列分组：

每个ID的最早开始日期
每个ID的最新结束日期
每个ID的值的总和
与其余数据一起显示Random1和Random2值（分组）

无需对数据进行分组，我就能获得最早的Start Date、最新的End Date和Value的 SUM 。代码如下（对于 1 个 ID）：

#Get the first Start Date
minStartDate = df.loc[ df['ID'] == 56886, 'Start Date'].min()

#Get the last End Date
maxEndDate = df.loc[ df['ID'] == 56886, 'End Date'].max()

#Get the value sum
sumValue = df.loc[ df['ID'] == 56886, 'Value'].sum()

然后我按所有 ID 将其分组：

for i in ID:
    #Get the first Start Date
    minStartDate = df.loc[ df['ID'] == i, 'Start Date'].min()
    #Get the last End Date
    maxEndDate = df.loc[ df['ID'] == i, 'End Date'].max()
    #Get the Value sum
    sumValue = df.loc[ df['ID'] == i, 'Value'].sum()

print(maxEndDate)

打印后我得到了maxEndDate、minStartDate、sumValue、ID的正确值。问题是它只显示一个ID（文件中的最后一个）的值：

在这种情况下，这是预期的输出（在忽略 Random 列之后）：

因此，我已将脚本更改为：

minStartDate = {}
maxEndDate = {}
summyValue = {}
Key = {}
ID = df[' ID']

for i in ID:
    Key[i] = df.loc[ df['ID'] == i, 'ID']
    #Get the first Start Date
    minStartDate[i] = df.loc[ df['ID'] == i, 'Start Date'].min()
    #Get the last End Date
    maxEndDate[i] = df.loc[ df['ID'] == i, 'End Date'].max()
    #Get the Value sum
    summyValue[i] = df.loc[ df['ID'] == i, 'Value'].sum()



print(summyValue,minStartDate,maxEndDate)

在终端我得到这个：

考虑到最终的预期输出为：

我应该如何玩转这些领域的组合？在 for 循环中，我猜我应该包括Random 1和Random 2列（密钥创建）。此外，为了将所有内容导出到新的 CSV 文件中，for 循环的最佳输出是什么？

巴拉特

如果你想用最大重复值填充随机 1 和随机 2，那么你可以使用 agg 和你自己的函数，即

df = pd.DataFrame({
    'id': [1,1,1,1,2,2,2],
    'r1': ['x','y','y','y','x','x','x'],
    'r2': ['t','I','t','t','c','c','c']
})

def max_rep(x):
    return x.value_counts().idxmax()

ndf = df.groupby('id',as_index=False).agg({'r1': max_rep,'r2':max_rep})

或者如果你想在一行中使用 lambda

ndf = df.groupby('id',as_index=False).agg({'r1': lambda x: x.value_counts().idxmax(),'r2': lambda x: x.value_counts().idxmax()})

输出：

  id r1 r2 
0 1 yt 
1 2 xc

正如乔恩评论的那样，您可以使用 agg 一行完成所有步骤，即

df.groupby('ID',as_index=False).agg('Start Date': 'min', 'End Date': 'max', 'Value': 'sum', \
                 'Random 1':max_rep,'Random 2':max_rep})

如果您希望与 random1 和 random2 一起分组，那么您可以使用

df.groupby(['ID','Random 1','Random 2'],as_index=False).agg('Start Date': 'min', 'End Date': 'max', 'Value': 'sum')

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-15

我来说两句

0 条评论

登录后参与评论

熊猫按多列分组并在行中获取输出

按多列分组

按多列排序，按另一列分组

熊猫：如何按多列分组并在多列上执行不同的聚合？

如何选择仅按一列分组的多列

熊猫按多列分组到一列

如何选择按一列分组的多列

按多列分组并计数

熊猫按多列分组

按多列分组数据

laravel按多列分组

如何按多列分组

在LINQ中再分组一列时使用sum

选择 SUM 列并分组

R语言-按一列分组的多列计数

linq按多列分组的返回类型

mysql按SUM（column）组排序，另一列

熊猫：按多列分组，将一列串联，同时添加另一列

oracle sql，id，按一列分组，多列在另一列中不同

SUM同一列用户得分

按两列分组并汇总多列

python - 在for循环中处理一列的if-else

选择特定行直到循环中的最后一列

如何在for循环中选择一列

如何比较按另一列分组的列并在 R 的新列中给出输出？

PostgreSQL按一个值分组，但返回多列

如何在循环中将日期从一列过渡到下一列？

TOP 榜单

文章

按多列分组并在 for 循环中返回一列的 SUM

按多列分组并在 for 循环中返回一列的 SUM

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID