我有一个猪脚本,可以从HDFS的目录中读取数据。数据存储为avro文件。文件结构如下:
DIR--
--Subdir1
--Subdir2
--Subdir3
--Subdir4
在Pig脚本中,我只是在进行加载,过滤和存储。看起来像:
items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()
现在的问题是Pig在输出目录中输出许多空文件。我想知道是否有办法删除这些文件?谢谢!
对于Pig版本0.13和更高版本,可以设置pig.output.lazy = true以避免创建空文件。(https://issues.apache.org/jira/browse/PIG-3299)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句