从AWS S3读取多个文件

GBL_DO 发表于 Dev

GBL_DO

我需要一个系统来读取S3存储桶以进行分析。存储桶分为年/月/日/小时，其中每个小时文件夹包含很多压缩文件，总计超过2GB。

这是要使用boto3在Python中编写脚本的东西吗？寻找任何一般方向。

约翰·罗滕斯坦

Amazon Athena可以跨Amazon S3中存储的多个文件运行类似SQL的查询。

可以使用gzip压缩文件。实际上，Athena将在压缩文件上运行得更快，更便宜，因为您只需为从磁盘扫描的数据量付费。

Amazon S3中给定文件夹（路径）中的所有文件必须采用相同格式。例如，如果它们是gzip格式的CSV文件，则所有文件必须具有相同顺序的相同列数。

然后，您可以在Amazon Athena中使用CREATE TABLE，该表定义了数据文件中的列以及数据的位置。这是最难的部分，因为您必须正确定义格式。

然后，您可以运行SQL SELECT命令来查询数据，该数据将应用于指定文件夹中的所有文件。

将来，如果要添加或删除数据，只需更新文件夹的内容。该SELECT命令始终在运行该命令时查看该文件夹中的文件。

鉴于您需要“对customer_id的不同值进行计数，并在所有文件中按item_id对它们进行分组”，将类似于：

SELECT
  item_id,
  COUNT(DISTINCT customer_id)
FROM table
GROUP BY 1

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-13

我来说两句

0 条评论

登录后参与评论

上一篇：如何将字符串列表中的反向字符串与python中的原始字符串列表进行比较？

如何在Spark数据框中从AWS S3读取多个文件？

使用aws.s3包一次从AWS S3读取多个CSV文件对象

使用Java Lambda在AWS S3上读取文件

pyspark 从 AWS S3 读取文件不起作用

在R中从AWS S3读取gzip文件的内容

如何使用 mdfreader 从 AWS S3 读取 .dat 文件

如何从 AWS S3 嵌套目录读取泡菜文件？

如何使用AWS S3 SDK复制多个文件

AWS CLI S3同步：如何排除多个文件

从Terraform上传AWS S3中的多个文件

通过多云/aws.s3库☁️从Rstudio从AWS S3读取TXT文件

从 AWS S3 读取数据

如何使用Python在myBucket中上传CSV文件并在S3 AWS中读取文件

Python AWS Boto3：如何从S3存储桶读取文件？

是否有“ S3范围读取功能”允许从AWS-S3文件读取分配的字节范围？

AWS S3 允许读取除特定文件夹之外的所有对象

使用节点fs从AWS S3存储桶读取文件

如何使用 Lambda 和 Python 在 AWS s3 中读取和覆盖文件？

有什么方法可以从AWS Step Function读取S3文件的内容吗？

将AWS s3文件读取为Java代码

如何判断Spark使用什么AWS凭证读取S3文件？

Python：如何从AWS S3读取和加载Excel文件？

读取公共 AWS S3 存储桶中的文件计数

使用org.apache.hadoop：hadoop-aws从pyspark中的s3中读取文件

使用预签名URL从AWS s3读取文件的内容

使用Boto和Pandas从AWS S3读取CSV文件

AWS Lambda @ edge。如何从S3读取HTML文件并将内容放入响应正文

如何从Web上的Python Flask中的AWS s3中读取文件

如何从AWS Lambda的s3存储桶中读取csv文件？

TOP 榜单

文章

从AWS S3读取多个文件

从AWS S3读取多个文件

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面