因此,我使用以下代码将Spark RDD保存到S3存储桶。有没有一种方法可以压缩(以gz格式)并保存,而不是将其另存为文本文件。
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
saveAsTextFile
方法采用一个可选参数,该参数指定压缩编解码器类:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句