Presto：如何从s3中读取在子文件夹中分区的整个存储桶？

Yerachmiel Feltzman 发表于 Dev

Yerachmiel Feltzman

我需要使用presto从s3中读取位于“ bucket-a”中的整个数据集。但是，在存储桶中，数据按年保存在子文件夹中。所以我有一个像这样的水桶：

Bucket-a> 2017>数据

Bucket-a> 2018>更多数据

Bucket-a> 2019>更多数据

以上所有数据均在同一张表中，但以这种方式保存在s3中。请注意，存储桶-a本身中没有数据，仅在每个文件夹中。

我要做的是将存储桶中的所有数据作为一个表读取，并添加一年作为列或分区。

我尝试过这种方式，但没有成功：

CREATE TABLE hive.default.mytable (
  col1 int,
  col2 varchar,
  year int
)
WITH (
  format = 'json',
  partitioned_by = ARRAY['year'],
  external_location = 's3://bucket-a/'--also tryed 's3://bucket-a/year/'

)

并且

CREATE TABLE hive.default.mytable (
  col1 int,
  col2 varchar,
  year int
)
WITH (
  format = 'json',
  bucketed_by = ARRAY['year'],
  bucket_count = 3,
  external_location = 's3://bucket-a/'--also tryed's3://bucket-a/year/'
)

以上所有方法均无效。

我已经看到人们使用presto将分区写入s3，但是我想做的却是相反的：从s3数据中读取数据，这些数据已经作为单个表在文件夹中拆分了。

谢谢。

皮特·芬德森

如果您的文件夹遵循Hive分区文件夹命名约定（year=2019/），则可以将表声明为已分区，只需使用system. sync_partition_metadataPresto中的过程即可。

现在，您的文件夹不遵循约定，因此您需要使用system.register_partition过程将每个文件夹分别注册为一个分区（将在Presto 330中提供，即将发布）。（替代方法register_partition是ADD PARTITION在Hive CLI中适当运行。）

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-23

我来说两句

0 条评论

登录后参与评论

上一篇：在AIR上为Docker启用pySpark

Presto：如何从s3中读取在子文件夹中分区的整个存储桶？

Presto：如何从s3中读取在子文件夹中分区的整个存储桶？

IE 11中的FormData未定义

如何一次从多个文本框中获取值？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

OpenCv：改变 putText() 的位置

Redux动作正常，但减速器无效

如何从JavaScript中的MP3文件读取元数据属性？

如何使用Redux-Toolkit重置Redux Store

将加号/减号添加到jQuery菜单

OpenGL纹理格式的颜色错误

获取并汇总所有关联的数据

超过时间限制错误C ++

ActiveModelSerializer仅显示关联的ID

在交互式Python Shell中获得最后结果

如何开始为Ubuntu开发

去噪自动编码器和常规自动编码器有什么区别？

Excel 2016图表将增长与4个参数进行比较

算术中的c ++常量类型转换

使用因子时如何在y轴上的ggplot中插入count或％

TreeMap中的自定义排序

如何在R中转置数据

在 React Native Expo 中使用 react-redux 更改另一个键的值