从AWS S3读取多个文件

GBL_DO

我需要一个系统来读取S3存储桶以进行分析。存储桶分为年/月/日/小时,其中每个小时文件夹包含很多压缩文件,总计超过2GB。

这是要使用boto3在Python中编写脚本的东西吗?寻找任何一般方向。

约翰·罗滕斯坦

Amazon Athena可以Amazon S3中存储的多个文件运行类似SQL的查询

可以使用gzip压缩文件实际上,Athena将在压缩文件上运行得更快,更便宜,因为您只需为从磁盘扫描的数据量付费。

Amazon S3中给定文件夹(路径)中的所有文件必须采用相同格式例如,如果它们是gzip格式的CSV文件,则所有文件必须具有相同顺序的相同列数。

然后,您可以在Amazon Athena中使用CREATE TABLE,该定义了数据文件中的列以及数据的位置。这是最难的部分,因为您必须正确定义格式。

然后,您可以运行SQL SELECT命令来查询数据,该数据将应用于指定文件夹中的所有文件。

将来,如果要添加或删除数据,只需更新文件夹的内容。SELECT命令始终在运行命令时查看该文件夹中的文件。

鉴于您需要“对customer_id的不同值进行计数,并在所有文件中按item_id对它们进行分组”,将类似于:

SELECT
  item_id,
  COUNT(DISTINCT customer_id)
FROM table
GROUP BY 1

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何在Spark数据框中从AWS S3读取多个文件?

使用aws.s3包一次从AWS S3读取多个CSV文件对象

使用Java Lambda在AWS S3上读取文件

pyspark 从 AWS S3 读取文件不起作用

在R中从AWS S3读取gzip文件的内容

如何使用 mdfreader 从 AWS S3 读取 .dat 文件

如何从 AWS S3 嵌套目录读取泡菜文件?

如何使用AWS S3 SDK复制多个文件

AWS CLI S3同步:如何排除多个文件

从Terraform上传AWS S3中的多个文件

通过多云/aws.s3库☁️从Rstudio从AWS S3读取TXT文件

从 AWS S3 读取数据

如何使用Python在myBucket中上传CSV文件并在S3 AWS中读取文件

Python AWS Boto3:如何从S3存储桶读取文件?

是否有“ S3范围读取功能”允许从AWS-S3文件读取分配的字节范围?

AWS S3 允许读取除特定文件夹之外的所有对象

使用节点fs从AWS S3存储桶读取文件

如何使用 Lambda 和 Python 在 AWS s3 中读取和覆盖文件?

有什么方法可以从AWS Step Function读取S3文件的内容吗?

将AWS s3文件读取为Java代码

如何判断Spark使用什么AWS凭证读取S3文件?

Python:如何从AWS S3读取和加载Excel文件?

读取公共 AWS S3 存储桶中的文件计数

使用org.apache.hadoop:hadoop-aws从pyspark中的s3中读取文件

使用预签名URL从AWS s3读取文件的内容

使用Boto和Pandas从AWS S3读取CSV文件

AWS Lambda @ edge。如何从S3读取HTML文件并将内容放入响应正文

如何从Web上的Python Flask中的AWS s3中读取文件

如何从AWS Lambda的s3存储桶中读取csv文件?