仅加载PIG中的特定字段？

电脑研究员

这是我的文件：

Col1, Col2, Col3, Col4, Col5

我只需要Col2和Col3。

目前，我正在这样做：

a = load 'input' as (Col1:chararray, 
                     Col2:chararray, 
                     Col3:chararray, 
                     Col4:chararray);
b = foreach a generate Col2, Col3;

有没有办法只直接加载Col2而Col3不是先加载整个列input，然后再加载generate所需列？

所有语言

您只GENERATE查找所需列的方法是一种有效执行您所要查询的方法的方法。请记住，所有数据都存储在HDFS上，并且在启动脚本时不会将所有数据都加载到内存中。即使您没有保留这些字节以供处理时，仍然必须从磁盘上读取这些字节，因此从不加载该数据没有性能优势。优点在于您不必将其发送到您的方法即可完成的reducer。

如果Pig可以告诉您将不使用某个列，它将立即“修剪”它，从本质上为您完成了对您所做的操作b = foreach a generate Col2, Col3;。但是，如果您使用的UDF可能会访问其他字段，则不会发生这种情况，因为Pig不会查看UDF的内部以查看它们是否被使用。例如，假设Col3是一个int。如果你有

b = group a by Col2;
c = foreach b generate group, SUM(a.Col3);

那么Pig会自动为您修剪第一和第四列，因为它可以看到它们从未被使用过。但是，如果您改为

b = group a by Col2;
c = foreach b generate group, COUNT(a);

那么Pig无法修剪，因为它在COUNTUDF中看不到，也不知道不会使用其他字段。如果不确定Pig是否会执行此修剪操作，则可以使用现有的foreach/generate方法。当您启动脚本时，Pig应该打印一条诊断消息，列出它能够删除的所有列。

相反，如果您的问题是只对几列感兴趣时不想提供完整的架构，则可以完全跳过该架构并将其放在GENERATE：

a = load 'input';
b = foreach a generate (chararray) $1 as Col2, (chararray) $2 as Col3;

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-14

我来说两句

0 条评论

登录后参与评论

上一篇：POS应用程序-简化SQL多重查询（MySQL）

TOP 榜单

文章

仅加载PIG中的特定字段？

仅加载PIG中的特定字段？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath