使用 Python 进行分组

Stuquan

我有一个数据集，我试图按一些常见值进行分组，然后总结一些其他值。棘手的部分是我想添加某种保持最大数字的权重，我将在下面尝试详细说明：

我创建了一个虚拟数据框，它与我的数据线一致，仅用于示例目的：

df = pd.DataFrame({'Family': ['Contactors', 'Contactors', 'Contactors'], 
                   'Cell': ['EP&C', 'EXR', 'C&S'],
                    'Visits': ['25620', '626', '40']})

这会产生一个像这样的表：

所以，在这个例子中，我希望所有的“接触者”都按 EP&C 进行分组（因为这具有最高的访问量），但我希望将所有访问量加起来，并删除其他“单元格”值，所以我会留下这样的东西：

有人可以建议吗？

谢谢。

莫兹韦

IIUC，您可以使用：

(df
 # convert to numeric
 .assign(Visits=pd.to_numeric(df['Visits']))
 # ensure the top row per group is the highest visits
 .sort_values(by=['Family', 'Visits'], ascending=False)
 # for groups per Family
 .groupby('Family', sort=False, as_index=False)
 # aggregate per group: Cell (first row, i.e top) and Visits (sum of rows)
 .agg({'Cell': 'first', 'Visits': sum})
)

输出：

       Family  Cell  Visits
0  Contactors  EP&C   26286

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-05-26

我来说两句

0 条评论

登录后参与评论

上一篇：为什么我在 SQL 的 LEFT JOIN 中的匹配变量上得到空值？

使用 Python 进行分组

使用 Python 进行分组

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID