Hadoop发出的本机快照压缩数据无法通过java-snappy版本提取

tnk_peka

当我们在经过一些处理后使用Spark时，我将结果存储到文件中，并使用带有简单代码的简明编解码器：

 data.saveAsTextFile("/data/2014-11-29",classOf[org.apache.hadoop.io.compress.SnappyCodec])

之后，当我使用Spark读取此文件夹文件时，一切都将正常运行！但是今天我尝试在我的PC中使用java snappy（java-snappy 1.1.1.2）解压result文件夹中的文件（此文件是该文件夹中下载到我的PC的文件之一）

Maven的依赖：

<dependency>
    <groupId>org.xerial.snappy</groupId>
    <artifactId>snappy-java</artifactId>
    <version>1.1.1.2</version>
</dependency>

我使用此代码解压缩：

File fileIn = new File("E:\\dt\\part-00000.snappy");
File fileOut = new File("E:\\dt\\adv1417971604684.dat");
FileOutputStream fos = new FileOutputStream(fileOut, true);
byte[] fileBytes = Files.readAllBytes(Paths.get(fileIn.getPath()));
byte[] fileBytesOut = Snappy.uncompress(fileBytes);
fos.write(fileBytesOut);

但是:(我立即得到这个错误：

    java.io.IOException: FAILED_TO_UNCOMPRESS(5)
 at org.xerial.snappy.SnappyNative.throw_error(SnappyNative.java:84)
 at org.xerial.snappy.SnappyNative.rawUncompress(Native Method)
 at org.xerial.snappy.Snappy.rawUncompress(Snappy.java:444)
 at org.xerial.snappy.Snappy.uncompress(Snappy.java:480)
 at org.xerial.snappy.Snappy.uncompress(Snappy.java:456)
 at

在Spark集群中，我们使用：

spark 1.1.0 && hadoop 2.5.1（带有原生hadoop snappy）

这是我运行hadoop checknative -a时的结果：

    14/12/09 16:16:57 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2    library system-native
14/12/09 16:16:57 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /usr/local/hadoop/hadoop2.5.1/lib/native/libhadoop.so
zlib:   true /lib64/libz.so.1
snappy: true /usr/local/hadoop/hadoop2.5.1/lib/native/libsnappy.so.1
lz4:    true revision:99
bzip2:  true /lib64/libbz2.so.1

我从链接下载并构建了敏捷的本机：

https://code.google.com/p/snappy/，以及以下来源：https : //drive.google.com/file/d/0B0xs9kK-b5nMOWIxWGJhMXd6aGs/edit?usp=sharing

有人请解释这个奇怪的错误！hadoop使用本机快照从使用java-snappy压缩数据时有什么区别吗？

狮子座

我是snappy-java的开发人员。Hadoop的SnappyCodec与Snappy的格式规范不完全相同：https：//code.google.com/p/snappy/source/browse/trunk/format_description.txt

Hadoop中的SnappyCodec扩展了此格式以压缩大型数据流。数据被分成多个块（通过BlockCompressionStream），每个块都有一些头文件和压缩数据。要使用Snappy.uncompress方法读取压缩数据，您需要提取每个块并删除其头。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-24

我来说两句

0 条评论

登录后参与评论

上一篇：没有属性的C＃json序列化和反序列化

TOP 榜单

文章

Hadoop发出的本机快照压缩数据无法通过java-snappy版本提取

Hadoop发出的本机快照压缩数据无法通过java-snappy版本提取

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接