对于DASK文档有关重新分割,以减少开销谈到这里。
但是,它们似乎表明您需要事先了解数据框的外观(即,预期数据的1/100)。
有没有明智地进行分区而不假设的好方法?目前,我只是使用进行分区npartitions = ncores * magic_number
,并True
根据需要设置扩展分区的力量。这个大小适合所有方法,但是由于我的数据集大小不同,肯定是次优的。
数据是时间序列数据,但不幸的是,它不是按固定的时间间隔进行的,过去我使用按时间频率进行分区,但是由于数据的不规则性,这可能不是最佳选择(有时数分钟内没有,然后几千秒内没有)
与mrocklin讨论后,一个不错的分区策略是瞄准磁盘大小为100MB的分区df.memory_usage().sum().compute()
。利用适合RAM的数据集,可以通过df.persist()
将它们放置在相关点上来减轻可能涉及的其他工作。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句