最快,最有效的方式在python中聚合大型数据集

巴特

假设我正在测量汽车在单轴上前进的速度,每10分钟测量一次。

我在DataFrame中有一列称为delta_x,其中包含最近10分钟内汽车在轴上移动了多少,值仅是整数。

现在,让我们说我想聚合我的数据,并且每个小时仅移动一次,但是我想尽可能地优化代码,因为我的数据集非常大,最有效的方法是什么?

df.head(9)

    date        time    delta_x
0   01/01/2018  00:00   9
1   01/01/2018  00:10   9
2   01/01/2018  00:20   9
3   01/01/2018  00:30   9
4   01/01/2018  00:40   11
5   01/01/2018  00:50   12
6   01/01/2018  01:00   10
7   01/01/2018  01:10   10
8   01/01/2018  01:20   10

目前,我的解决方案是执行以下操作

for file in os.listdir('temp'):
    if(file.endswith('.txt'):
        df = pd.read_csv(''.join(["./temp/",file]), header=None, delim_whitespace=True)
        df.columns = ['date', 'time', 'delta_x']
        df['hour'] = [(datetime.strptime(x, "%H:%M")).hour for x in df['time'].values]
        df = df.groupby(['date','hour']).agg({'delta_x': 'sum'})

哪个输出正确:


date        hour   delta_x
01/01/2018  0      59

但我想知道,是否有更好,更快和更有效的方法,也许使用NumPy?

莫希特·沙玛(Mohit Sharma)

您可以尝试使用以下用于加快熊猫操作速度的软件包

https://github.com/jmcarpenter2/swifter

https://github.com/modin-project/modin

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在大型数据框中修改值的最有效方法-Python

Python最有效的方式来保留排序的数据

Python-最快,最有效,最简单的获取辅音方式

最有效的分组方式=>聚合大数据帧

从大型表中删除记录的最有效方法

遍歷大型數組以查找 Python 中缺失元素的最有效方法

以最快,最有效的方式将大data.frame的行作为R中的函数的参数传递

对数据帧中的数据进行分类并保存在 R 中的最有效和最快的方法

对PyTorch使用大数据集的最有效方法?

检查数据库中是否有新条目的最快,最有效的方法是什么?

上树莓裨使用Python最有效的方式来存储数据从传感器

Android Studio:获取大量文本数据然后在 Activity 中显示的最有效方式

以最有效的方式将 1000 条数据保存到 mysql 中

Laravel中链接2个数据集的最有效方法

PHP:以最快或最有效的方式编写许多小文件

ASP.NET - 并行发送批量邮件 - 最快、最有效的方式

以最有效的方式从Java反复调用python

Python:将以下数据帧解压缩为矩阵的最有效/最快的方法是什么?

从大型数据框中删除熊猫中的列(从开始到结束)的最有效方法是什么?

python中最有效的计算方式在对列表中查找对

Python-以最有效的方式对“字节”中的每个字节进行“异或”

有效地重塑大型数据集

大型数据集的有效输出格式?

在Python中迭代列表并找到合适的字符串模式的最快(最有效)方法是什么?

Python:从大型数据集创建新的csv的有效方法

在Firestore中侦听大型文档更新的有效方式?

最有效的进口方式

MySQL行的最有效方式?

最有效的文件加密方式?