我想知道hadoop中的压缩编解码器和文件格式有何不同。例如,实木复合地板文件格式还可以减小原始文件的大小,并支持文件拆分。Bzip2codec也做同样的事情。请帮助我更好地了解两者之间的区别。
压缩和文件格式是完全不同的东西。
文件格式描述了存储在文件中的数据的结构。Avro将包含Avro序列化的对象,SequenceFile将包含一个键(通常是一个数字)和一个值(原始数据)。Parquet是一种特殊的文件格式,允许按列存储,因此非常节省空间。
您可以使用更有效的格式(例如,图像的TIFF和JPG),而不要使用(PSD)。
最重要的是,您可以选择使用不同的压缩编解码器压缩存储中的文件。Bzip,snappy和GZ是常见的方法。在上面的示例中,这将与使用Zip压缩图像相对应。
希望这可以提供一些澄清。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句