使用Spark读取具有自定义扩展名的压缩文件

asachet 发表于 Dev

ache

我想将gzip压缩文件读为RDD[String]使用等效sc.textFile("path/to/file.Z")。

除了我的文件扩展名（如果不是）之外，gz而是文件扩展名Z，因此该文件不被识别为压缩文件。

我无法重命名它们，因为这会破坏生产代码。我不想复制它们，因为它们很大且很多。我想我可以使用某种符号链接，但我想先看看是否有使用scala / spark的方法（我现在在本地Windows机器上）。

如何有效读取此文件？

米克尔·圣·维森特

这里有一种解决方法，可以解决此问题http://arjon.es/2015/10/02/reading-compressed-data-with-spark-using-unknown-file-extensions/

相关部分：

...扩展GzipCodec并覆盖getDefaultExtension方法。

package smx.ananke.spark.util.codecs

import org.apache.hadoop.io.compress.GzipCodec

class TmpGzipCodec extends GzipCodec {

  override def getDefaultExtension(): String = ".gz.tmp" // You should change it to ".Z"

}

现在我们刚刚注册了此编解码器，在SparkConf上设置了spark.hadoop.io.compression.codecs：

val conf = new SparkConf()

// Custom Codec that process .gz.tmp extensions as a common Gzip format
conf.set("spark.hadoop.io.compression.codecs", "smx.ananke.spark.util.codecs.TmpGzipCodec")

val sc = new SparkContext(conf)

val data = sc.textFile("s3n://my-data-bucket/2015/09/21/13/*")

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-25

我来说两句

0 条评论

登录后参与评论

上一篇：将表单的复选框标签附加到<p>元素中

使用Spark读取具有自定义扩展名的压缩文件

使用Spark读取具有自定义扩展名的压缩文件

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局