为什么最大的熊猫比我的慢？

马丁·托马（Martin Thoma）：

我有一个数据框

            ID  CAT    SCORE
0            0    0  8325804
1            0    1  1484405
...        ...  ...      ...
1999980  99999    0  4614037
1999981  99999    1  1818470

我在哪里对数据进行分组，ID并想知道每个ID得分最高的2个类别。我可以看到两种解决方案：

df2 = df.groupby('ID').apply(lambda g: g.nlargest(2, columns='SCORE'))

或手动将其转换为元组列表，对元组进行排序，为每个ID（除两个ID之外）移除，然后转换回数据框。第一个应该比第二个要快，但是我观察到手动解决方案要快得多。

为什么手动最大比熊猫解决方案更快？

MVCE

import numpy as np
import pandas as pd
import time


def create_df(n=10**5, categories=20):
    np.random.seed(0)
    df = pd.DataFrame({'ID': [id_ for id_ in range(n) for c in range(categories)],
                       'CAT': [c for id_ in range(n) for c in range(categories)],
                       'SCORE': np.random.randint(10**7, size=n * categories)})
    return df


def are_dfs_equal(df1, df2):
    columns = sorted(df1.columns)
    if len(df1.columns) != len(df2.columns):
        return False
    elif not all(el1 == el2 for el1, el2 in zip(columns, sorted(df2.columns))):
        return False
    df1_list = [tuple(x) for x in df1[columns].values]
    df1_list = sorted(df1_list, reverse=True)
    df2_list = [tuple(x) for x in df2[columns].values]
    df2_list = sorted(df2_list, reverse=True)
    is_same = df1_list == df2_list
    return is_same


def manual_nlargest(df, n=2):
    df_list = [tuple(x) for x in df[['ID', 'SCORE', 'CAT']].values]
    df_list = sorted(df_list, reverse=True)
    l = []
    current_id = None
    current_id_count = 0
    for el in df_list:
        if el[0] != current_id:
            current_id = el[0]
            current_id_count = 1
        else:
            current_id_count += 1
        if current_id_count <= n:
            l.append(el)
    df = pd.DataFrame(l, columns=['ID', 'SCORE', 'CAT'])
    return df

df = create_df()

t0 = time.time()
df2 = df.groupby('ID').apply(lambda g: g.nlargest(2, columns='SCORE'))
t1 = time.time()
print('nlargest solution: {:0.2f}s'.format(t1 - t0))

t0 = time.time()
df3 = manual_nlargest(df, n=2)
t1 = time.time()
print('manual nlargest solution: {:0.2f}s'.format(t1 - t0))
print('is_same: {}'.format(are_dfs_equal(df2, df3)))

给

nlargest solution: 97.76s
manual nlargest solution: 4.62s
is_same: True

拉明：

我想你可以使用这个：

df.sort_values(by=['SCORE'],ascending=False).groupby('ID').head(2)

这与您在pandas groupby上使用排序/头部功能的手动解决方案相同。

t0 = time.time()
df4 = df.sort_values(by=['SCORE'],ascending=False).groupby('ID').head(2)
t1 = time.time()
df4_list = [tuple(x) for x in df4[['ID', 'SCORE', 'CAT']].values]
df4_list = sorted(df4_list, reverse=True)
is_same = df3_list == df4_list
print('SORT/HEAD solution: {:0.2f}s'.format(t1 - t0))
print(is_same)

给

SORT/HEAD solution: 0.08s
True

时间

77.9 ms ± 7.91 ms per loop (mean ± std. dev. of 7 runs, 10 loops each).

至于为什么nlargest比其他解决方案要慢呢，我想为每个组调用它会增加开销（%prun显示30.293秒内显示15764409个函数调用（15464352个原始调用））。

对于此解决方案（0.078秒内进行1533个函数调用（1513个原始调用））

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-3

我来说两句

0 条评论

登录后参与评论

为什么我的XLL比我的UDF慢？

为什么我的锈病比我的C记忆操纵慢？

为什么Linux内核中的bitops比我的慢？

为什么Rust比我的类似Python慢？

为什么我的n log（n）堆排序比我的n ^ 2选择排序慢

为什么我的 aks prime test 的实现比我的 naive 版本的实现慢？

为什么Math.pow（int，int）比我的幼稚实现慢？

在某些情况下，国家的表现比我预期的要慢。为什么？

为什么__builtin_popcount比我自己的位计数功能慢？

为什么UIButton比我设置的大

为什么ScriptIntrinsicBlur比我的方法快？

为什么我的包含范围比我的svg大？

为什么我的按钮插件比我的文本输入大？

为什么我的框架比我设定的要大？

为什么吐司出现的次数比我需要的次数多？

为什么这个版本的strrev比我的快？

为什么strcmp比我的函数快得多？

为什么这段代码比我的更高效？

为什么我创建的gif这么慢？

为什么我的Eratosthenes筛子这么慢？

为什么我的A *实施要比Floodfill慢？

为什么我的microSD卡这么慢？

为什么我的MySQL连接慢？

为什么我的查询速度慢？

为什么我的WebAssembly函数比JavaScript慢？

为什么我的SQL查询这么慢？

为什么我的Android Webview这么慢

为什么我的页面加载这么慢？

为什么我的原型这么慢？

TOP 榜单

文章

为什么最大的熊猫比我的慢？

为什么最大的熊猫比我的慢？

MVCE

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用