Hadoop:如何将reducer输出合并到单个文件?

托马斯里:

我知道shell中的“ getmerge”命令可以完成这项工作。

但是,如果要在作业后通过HDFS API for Java合并这些输出,该怎么办?

我真正想要的是HDFS上的单个合并文件。

我唯一能想到的就是在那之后开始其他工作。

谢谢!

VoiceOfUnreason:

但是,如果要在作业后通过HDFS API for Java合并这些输出,该怎么办?

猜测,因为我没有尝试这样做我自己,但我认为你正在寻找的方法是FileUtil.copyMerge,这是方法,当你运行FsShell调用-getmerge命令。FileUtil.copyMerge以两个FileSystem对象作为参数-FsShell使用FileSystem.getLocal来检索目标FileSystem,但是我看不到您无法在目标上使用Path.getFileSystem来获取OutputStream的任何原因

就是说,我认为它不会给您带来太多好处-合并仍在本地JVM中进行。因此您并没有真正节省太多的-getmerge后续费用-put

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何将多个PDF页面合并到单个页面

如何将List <PdfDocument>合并到单个PdfDocument中

如何将Azure Logic应用程序中For_Each循环的输出合并到单个平面阵列中?

如何将Hadoop目录压缩为单个gzip文件?

将单列csv文件合并到单个csv文件中

如何将具有相同属性的对象合并到单个数组中?

如何将多个dict中的数据合并到DataFrame中的单个行中

如何将列输出合并到上一列的行尾?

将react build输出合并到单个js文件中

如何实现更改文件名读取的迭代方法以及如何将结果合并到单个Excel文件中

如何将json对象的json数组合并到单个json对象

如何将多个行中的值合并到Excel中的单个行中?

如何将多个Excel文件中的数据合并到单个Excel文件或Access数据库中?

如何将结果从两个不同的命令合并到单个命令?

如何将唯一的行值合并到多个列中的单个列中?

如何将Hadoop Reducer的最终输出写入文本文件?

如何将estUD合并到单层

PlayFramework:如何将一系列JsValue实例合并到单个JSON文档

如何将字幕合并到视频?

如何将文件名从find输出合并到字符串中

如何将交换(.swp)文件合并到原始文件?

如何将timeDate列表合并到单个timeDate中?

如何将级联作业的输出合并到特定大小

如何将行合并到 csv 文件中

将 Spark 输出合并到单个文件中

如何将日期、年、月的不同列加入/合并到单个列中

如何将“flutter build web”输出合并到一个 html 文件中

将多个文件合并为单个文件,新文件文件应合并到输出文件中的新行

MongoDB:如何将所有文档合并到聚合管道中的单个文档中