在Spark中读取大的gz文件

vkb

我有2个gzip文件,每个文件的大小约为30GB,并编写了火花代码来对其进行分析。Spark集群具有4个工作节点(每个28GB RAM和4个内核)和2个头节点(64GB RAM)。

我正在sc.textFile(histfile,20)阅读这2个gzip文件并对其进行并行化。这项工作分3个阶段- reduceByKeyreduceByKeysaveAsTextFile由于有2个文件,因此截至目前仅使用2个工作程序。

已经花费了4个多小时,但第一阶段仍未完成。当每个gzip文件的大小为100GB-200GB时,运行Spark作业的正确方法是什么。

疯狂的高塔姆

gzip文件不正确,因此您的第一阶段将产生两个map任务,第一阶段通过将花费大量时间。

请在第二阶段之前重新分配分区,以减少任务。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

TOP 榜单

热门标签

归档