熊猫分组；if 条件：sum else: 给定列的最大值基于另一列

乔伊科

说df我在group：

df = pd.DataFrame(np.random.rand(4,4), columns=list('abcd'))
df['group'] = [0, 0, 1, 1]

然后我想折叠 df 以便在 B 的总和大于 1 时对 A 求和，如果 B 的总和小于或等于 1，我想要 A 的最大值。

然后我想要 B 的 min() 和对其余列的其他各种操作。

耶斯列

为了获得更好的性能，请使用where：

np.random.seed(15)
N = 1000
df = pd.DataFrame(np.random.rand(N,10), columns=list('abcdefghij'))
df['group'] = np.random.randint(100, size=N)

df_grouped = df.groupby('group')
s1 = df_grouped.apply(lambda grp: grp['a'].sum() if grp['b'].sum() > 1 else grp['a'].max())
print (s1)

df_grouped = df.groupby('group')
s2 = df_grouped['a'].sum().where(df_grouped['b'].sum() > 1, df_grouped['a'].max())
print (s2)


In [69]: %%timeit
    ...: df_grouped = df.groupby('group')
    ...: s1 = df_grouped.apply(lambda grp: grp['a'].sum() if grp['b'].sum() > 1 else grp['a'].max())
    ...: 
24.8 ms ± 228 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [70]: %%timeit
    ...: df_grouped = df.groupby('group')
    ...: s2 = df_grouped['a'].sum().where(df_grouped['b'].sum() > 1, df_grouped['a'].max())
    ...: 
1.63 ms ± 58 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-07-8

我来说两句

0 条评论

登录后参与评论

上一篇：一些内容隐藏在横向模式android开发

熊猫基于另一列替换值条件

筛选是否根据一列的最大值（取决于另一列的条件）是否等于特定值进行分组

按一列分组，然后在熊猫中查找另一列的总和和最大值

以另一列的最小值/最大值作为条件作为 SUM 进行测量

熊猫分组；if 条件：sum else: 给定列的最大值基于另一列

熊猫分组；if 条件：sum else: 给定列的最大值基于另一列

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID