Sqoop根据列值导入as-parquetfile

drsalt 发表于 Dev

盐

因此，我试图运行一个sqoop导入作业，在该作业中，我根据partition_key保存了镶木地板文件。最终，我希望我的文件夹/TABLE_DIR/有5个镶木文件，每个唯一的分区键1个。目前我只能得到4。我不能设置num-mappers5。Table2的partition_key可能会上升到8，为此我想得到8个实木复合地板文件，等等。

Table1:
primary_key:[1,2,3,4,5,6,7,8,9,10]
partition_key: [1,1,1,2,2,2,3,3,4,5]
value: [15,12,18,18,21,23,25,26,24,10]

Code:
sqoop import \
     --query "select primary_key,partition_key,value from Table1" \
     --compress --compression-codec snappy \
     --split-by partition_key \
     --target-dir /TABLE_DIR/

神童

由于sqoop导入是仅地图作业，因此您无法控制输出文件的数量。可以通过hadoop拆分机制来解决（您可以在mapreduce或pig中控制它，尽管这些脚本不确定sqoop。但是可以查看“ fetch_size”参数）。但是，如果您确实想执行以下操作

您可以在此数据上显示一个配置单元表（注意元数据文件！）。
将此数据插入另一个配置单元表（也是如此），并在插入时对任何列进行排序（这样做是为了将insert-select（将再次成为仅地图的工作）转换为map-reduce的工作），将mapreduce.job.reduces设置为5或任何所需的值。

该属性将强制五个reducer提供5个输出文件。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-8

我来说两句

0 条评论

登录后参与评论

上一篇：errno == ENOENT是否足以检查C中是否存在文件？

TOP 榜单

文章

Sqoop根据列值导入as-parquetfile

Sqoop根据列值导入as-parquetfile

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）