使用 Sqoop 导入时 Parquet 文件中的脏值

Omar 发表于 Dev

奥马尔

我正在使用 Sqoop1（版本 1.4.6，CDH 5.7.4）从 Oracle 导入。
Sqoop 创建一个临时 Parquet Hive 表，然后我使用 Hive（直线）到insert into目标表。
这种双步摄取是因为目标表具有与 Sqoop 不同的列类型映射，因此insert into我可以即时转换它们。我也在 Snappy 中即时压缩。这工作正常。目前，我没有控制 Sqoop 的导入命令上的类型映射。在我的特殊情况下它太复杂了。

一开始我是在平面文件中导入的，但是我有包含一堆字符的字段，这些字符会破坏我的行，如换行符、回车符、制表符等。由于这个和其他原因，我决定转向 Parquet（不幸的是，avro 不是一个选项，因为我们使用的工具不支持它）。
在我看来，像 Parquet 这样的二进制格式在处理这些字符时不会有问题。

原来我错了。
Aselect * from table显示了一些损坏的行，经过大量调试后，我发现某些字段被分成两部分。我能够看到被截断的记录（根据 Oracle 来源），其中一部分位于另一行（单独）。由于我在 Sqoop 中使用自由格式查询，因此解决方案是在提取时使用替换函数替换字符REPLACE(REPLACE(REPLACE(note, chr(10), ' '), chr(13), ' '), chr(09), ' ') AS NOTE。

当然，这显然是错误的方法，因为可能存在其他带有脏字符的字段，也可能存在其他脏字符。

所以问题是：

我认为 Parquet（或 avro，或其他二进制格式）不关心字段内的字符是否错误？
难道我做错了什么？
我怎样才能防止这种问题？

谢谢

HakkiBuyukcengiz

答案：

你错了。Parquet 不受内部分隔符（例如换行符或制表符等）的影响。
不。实际上，您的数据存储在与oracle 中相同的parquet 文件中。然而; 当您将数据打印到屏幕上时，根据您的客户端（假设您使用 hive 客户端），您会看到结果已损坏，因为服务器很可能以明文形式向客户端发送数据。
为了防止这种情况，在打印数据时，您可以使用 hive 的功能：regexp_replace(your_text_column, "\t|\n|\r\n", " ")。这将防止您的客户“混淆”。

此外，您不必对包含此类特定字符的数据使用镶木地板。我认为 hive 的默认分隔符 (\001) 就足够了。该非打印字符不太可能出现在文本字段中。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-9

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

使用 Sqoop 导入时 Parquet 文件中的脏值

使用 Sqoop 导入时 Parquet 文件中的脏值

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

SQL Server中的非确定性数据类型

如何避免每次重新编译所有文件？

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

HttpClient中的角度变化检测

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

在Wagtail管理员中，如何禁用图像和文档的摘要项？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

构建类似于Jarvis的本地语言应用程序

Camunda-根据分配的组过滤任务列表

如何了解DFT结果

Embers js中的更改侦听器上的组合框

ggplot：对齐多个分面图-所有大小不同的分面

使用分隔符将成对相邻的数组元素相互连接

PHP Curl PUT 在 curl_exec 处停止

您如何通过 Nativescript 中的 Fetch 发出发布请求？

错误：找不到存根。请确保已调用spring-cloud-contract：convert

应用发明者仅从列表中选择一个随机项一次