如何通过pyspark以gzip格式保存Spark RDD

克拉克马尔

因此，我使用以下代码将Spark RDD保存到S3存储桶。有没有一种方法可以压缩（以gz格式）并保存，而不是将其另存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

零323

saveAsTextFile 方法采用一个可选参数，该参数指定压缩编解码器类：

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-31

我来说两句

0 条评论

登录后参与评论

如何保存Spark Java Dstream RDD

通过Spark RDD进行迭代

Spark RDD.aggregate与RDD.reduceByKey？

pyspark RDD countByKey（）如何计数？

pyspark rdd拆分问题

在PySpark中转换RDD

pyspark RDD 到 DataFrame

Pyspark RDD的平均间隔

如何从RDD中创建RDD的集合？

什么是RDD Spark

Spark：RDD到列表

Apache Spark RDD拆分“ |”

Spark RDD容错

Spark RDD数据选择

Apache Spark RDD替代

重塑Spark RDD

Spark-Scala RDD

Spark RDD分区效果

Spark：合并RDD

Spark：如何在取消持久保存之前保存RDD

如何在 PySpark 中将 RDD 列表转换为 RDD 行

如何通过转换为RDD在Spark Dataset中保存嵌套或JSON对象？

RDD如何合并

如何检查RDD

如何排序RDD

如何打印RDD的内容？

如何找到RDD的大小

如何替换RDD的元素

如何正确打印rdd

TOP 榜单

文章

如何通过pyspark以gzip格式保存Spark RDD

如何通过pyspark以gzip格式保存Spark RDD

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

用日期数据透视表和日期顺序查询

flask-admin 如何自定义删除按钮

在浏览器中请求URL时会发生什么？

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

为什么PlusShare.Builder setRecipients方法不起作用？

OS X-为什么我需要打开WiFi才能确定最近的位置

在Windows 7中无法删除文件（2）

android 背部按下

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

PyQt4.QtCore模块无法向sip模块注册

用白色图像隐藏Android Studio中的所有textView

为什么随机森林中的平均降低基尼系数取决于人口规模？

应用发明者仅从列表中选择一个随机项一次

正则表达式，用于查找所有以任何字母开头和数字开头的文件

ArgumentError：错误＃2109：在场景默认设置中未找到默认的帧标签

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

无法加载文件或程序集System.Runtime.CompilerServices.Unsafe

Jqgrid：多级别组摘要