复制镶木地板文件，然后使用 Athena 查询它们

JPFrancoia

我使用 aws-data-wrangler ( https://github.com/awslabs/aws-data-wrangler ) 来处理 Pandas 数据帧。一旦它们被处理，我将它们导出到镶木地板文件：

wr.pandas.to_parquet(
    dataframe=my_dataframe,
    description=DESCRIPTION,
    columns_comments=COLUMN_COMMENTS,
    parameters=DATASET_TAGS,
    database=my_database,
    table=f"{table}_{latest_refresh_date}",
    path=f"s3://{bucket_out}/{sub_path}/{latest_refresh_date}/",
    procs_cpu_bound=1,
    partition_cols=["date"],
    mode="overwrite_partitions",
    preserve_index=False,
)

通过这样做，它还创建了一个 Glue 表。Parquet 文件愉快地存在于 S3 存储桶中，我可以使用 Athena 使用 Glue 表的名称查询数据，如下所示：

select * from {table}_{latest_refresh_date}

现在假设我获得了新数据。新数据应存储在新的 S3 路径中：s3://{bucket_out}/{sub_path}/{other_refresh_date}/例如。我像以前一样处理新数据，但我不想重新处理旧数据。因此，我使用简单的 S3 副本将 Parquet 文件从旧路径复制到新路径。旧数据不使用wr.pandas.to_parquet.

现在，当我想查询居住在中的数据时s3://{bucket_out}/{sub_path}/{other_refresh_date}/，我只能访问新数据。

select * from {table}_{other_refresh_date}

看来我只能查询添加到Glue表中的数据。我天真地认为 Athena 会查询 S3 路径，但显然它比这更复杂。

您能否向我解释为什么会发生这种情况，并提出解决办法？我是否需要以某种方式将旧文件注册到新的 Athena 表？

跟随

在不知道 Pandas 在幕后所做的事情的细节的情况下，我怀疑问题在于它正在创建一个分区表（如partition_cols=["date"]命令的一部分所建议的那样）。分区表不仅有一个位置，而且每个分区有一个位置。

这可能是什么要去：当你创建你的S3数据看起来像这样结束了第一个表：s3://example/table1/date=20200317/file.parquet和分区表与位置的分区s3://example/table1/date=20200317/。桌子也可能有一个位置，它可能是s3://example/table1/，但这主要是没有意义的——它不用于任何事情，只是 Glue 要求桌子有一个位置。

当您创建下一个表时，您会在 say 中获取数据s3://example/table2/date=20200318/file.parquet，以及一个具有相应分区的表。我假设您接下来要做的是将数据从第一个表复制到s3://example/table2/date=20200317/file.parquet（table1->table2是差异）。

当您查询新表时，它不会在此位置查找，因为它不属于其任何分区的位置。

您可以通过多种方式解决此问题：

也许您根本不需要分区，如果删除partition_cols=["date"]命令的一部分会发生什么？你还有分区表吗？（检查 Glue 控制台，或SHOW CREATE TABLE tableX在 Athena 中运行）。使用未分区的表，您可以将所需的任何数据移动到表的位置，Athena 会找到它。
相反，移动数据，你可以从第一个表中添加分区到新表中，雅典娜运行是这样的：ALTER TABLE table2 ADD PARTITION ("date" = '20200317') LOCATION 's3://example/table1/date=20200317/'。
而是将分区添加到旧表，或两者兼而有之。这并不重要，仅取决于您在运行查询时要使用的名称。您还可以将手动设置的表作为主表，并将 Pandas 创建的表视为临时表。一旦 Pandas 创建了数据，您将其作为分区添加到主表并删除新创建的表。这样你就可以为你的表取一个好听的名字，并且名字中没有日期戳。
如果你希望数据都在一个地方，你可以复制数据，然后像上面一样添加分区。
有人可能会建议像上面一样复制数据，然后再运行MSCK REPAIR TABLE。这是可行的，但是随着您获得更多分区，它会变得越来越慢，因此它不是一个可扩展的解决方案。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-5

我来说两句

0 条评论

登录后参与评论

上一篇：使用python中的关键字列表进行Google搜索网络抓取

TOP 榜单

文章

复制镶木地板文件，然后使用 Athena 查询它们

复制镶木地板文件，然后使用 Athena 查询它们

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序