最快，最有效的方式在python中聚合大型数据集

V.Bart 发表于 Dev

巴特

假设我正在测量汽车在单轴上前进的速度，每10分钟测量一次。

我在DataFrame中有一列称为delta_x，其中包含最近10分钟内汽车在轴上移动了多少，值仅是整数。

现在，让我们说我想聚合我的数据，并且每个小时仅移动一次，但是我想尽可能地优化代码，因为我的数据集非常大，最有效的方法是什么？

df.head(9)

    date        time    delta_x
0   01/01/2018  00:00   9
1   01/01/2018  00:10   9
2   01/01/2018  00:20   9
3   01/01/2018  00:30   9
4   01/01/2018  00:40   11
5   01/01/2018  00:50   12
6   01/01/2018  01:00   10
7   01/01/2018  01:10   10
8   01/01/2018  01:20   10

目前，我的解决方案是执行以下操作

for file in os.listdir('temp'):
    if(file.endswith('.txt'):
        df = pd.read_csv(''.join(["./temp/",file]), header=None, delim_whitespace=True)
        df.columns = ['date', 'time', 'delta_x']
        df['hour'] = [(datetime.strptime(x, "%H:%M")).hour for x in df['time'].values]
        df = df.groupby(['date','hour']).agg({'delta_x': 'sum'})

哪个输出正确：


date        hour   delta_x
01/01/2018  0      59

但我想知道，是否有更好，更快和更有效的方法，也许使用NumPy？

莫希特·沙玛（Mohit Sharma）

您可以尝试使用以下用于加快熊猫操作速度的软件包

https://github.com/jmcarpenter2/swifter

https://github.com/modin-project/modin

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：为什么即使长度始终为1，Debug.Assert也显示错误消息？

在大型数据框中修改值的最有效方法-Python

最快，最有效的方式在python中聚合大型数据集

最快，最有效的方式在python中聚合大型数据集

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称