有效划分dask数据帧的策略

萨曼莎·休斯(Samantha Hughes):

对于DASK文档有关重新分割,以减少开销谈到这里

但是,它们似乎表明您需要事先了解数据框的外观(即,预期数据的1/100)。

有没有明智地进行分区而不假设的好方法?目前,我只是使用进行分区npartitions = ncores * magic_number,并True根据需要设置扩展分区的力量这个大小适合所有方法,但是由于我的数据集大小不同,肯定是次优的。

数据是时间序列数据,但不幸的是,它不是按固定的时间间隔进行的,过去我使用按时间频率进行分区,但是由于数据的不规则性,这可能不是最佳选择(有时数分钟内没有,然后几千秒内没有)

萨曼莎·休斯(Samantha Hughes):

与mrocklin讨论后,一个不错的分区策略是瞄准磁盘大小为100MB的分区df.memory_usage().sum().compute()利用适合RAM的数据集,可以通过df.persist()将它们放置在相关点上来减轻可能涉及的其他工作

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章