有效划分dask数据帧的策略

Samantha Hughes 发表于 Python

61

萨曼莎·休斯（Samantha Hughes）：

对于DASK文档有关重新分割，以减少开销谈到这里。

但是，它们似乎表明您需要事先了解数据框的外观（即，预期数据的1/100）。

有没有明智地进行分区而不假设的好方法？目前，我只是使用进行分区npartitions = ncores * magic_number，并True根据需要设置扩展分区的力量。这个大小适合所有方法，但是由于我的数据集大小不同，肯定是次优的。

数据是时间序列数据，但不幸的是，它不是按固定的时间间隔进行的，过去我使用按时间频率进行分区，但是由于数据的不规则性，这可能不是最佳选择（有时数分钟内没有，然后几千秒内没有）

萨曼莎·休斯（Samantha Hughes）：

与mrocklin讨论后，一个不错的分区策略是瞄准磁盘大小为100MB的分区df.memory_usage().sum().compute()。利用适合RAM的数据集，可以通过df.persist()将它们放置在相关点上来减轻可能涉及的其他工作。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-06-1

我来说两句

0 条评论

登录后参与评论

相关文章

重建数据帧字典的有效方法

Java访问数据库的有效策略

如何在数据帧的每一列中有效地按后继者划分

从R向SQL插入数据帧的有效方法

分区数据以有效联接Spark数据帧/数据集

R：有效的数据帧拆分应用（连接）

线性四叉树是存储网格划分数据的最有效方法吗

如何有效地转置67 gb文件/ Dask数据帧而不将其完全加载到内存中？

在Spark上过滤数据帧的有效方法？

确定数据帧中的有效位数

从熊猫数据帧为pytorch lstm准备数据的最有效方法

如何以有效方式倍增数据帧

计算dask数据框中所有行的差的有效方法

EMA函数在R数据帧上有效，但在Spark数据帧上失败-Sparklyr

加载多个Parquet文件时保留dask数据帧划分

有没有更有效的方法来遍历数据帧？

二维numpy数组中带有索引的Pandas数据帧的有效子集

按时间间隔合并数据帧的有效方法

R中所有数据帧记录的有效迭代处理

将数据帧乘以向量的最有效方法

划分数据表每一行的有效方法

R：有效检查数据帧中的相邻元素

以更有效的方式过滤数据帧

有效地连接数据帧

如何有效地将数据帧子集划分为多个块以传递给列表列表

如何有效地合并 PySpark 数据帧？

pandas 数据帧中所有对的有效 k 最近邻

非常大的数据帧的有效映射

Python：有效地使用数据帧的数据进行计算

TOP 榜单

文章

热门标签

归档