如何通过pyspark以gzip格式保存Spark RDD

克拉克马尔

因此,我使用以下代码将Spark RDD保存到S3存储桶。有没有一种方法可以压缩(以gz格式)并保存,而不是将其另存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
零323

saveAsTextFile 方法采用一个可选参数,该参数指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章