如何防止Apache Pig输出空文件?

摇摆乐团长

我有一个猪脚本,可以从HDFS的目录中读取数据。数据存储为avro文件。文件结构如下:

DIR--
   --Subdir1
   --Subdir2
   --Subdir3
   --Subdir4

在Pig脚本中,我只是在进行加载,过滤和存储。看起来像:

items = LOAD path USING AvroStorage()
items = FILTER items BY some property
STORE items into outputDirectory using AvroStorage()

现在的问题是Pig在输出目录中输出许多空文件。我想知道是否有办法删除这些文件?谢谢!

哪一个

对于Pig版本0.13和更高版本,可以设置pig.output.lazy = true以避免创建空文件。https://issues.apache.org/jira/browse/PIG-3299

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章