从 S3 解压缩文件并将其写回 S3 的 AWS Glue 作业

简单的印度

我对 AWS Glue 非常陌生,我想使用 AWS Glue 解压缩 S3 存储桶中的一个巨大文件,并将内容写回 S3。

我在尝试谷歌这个要求时找不到任何东西。

我的问题是:

  1. 如何将 zip 文件作为数据源添加到 AWS Glue?
  2. 如何将其写回相同的 S3 位置?

我正在使用 AWS Glue Studio。任何帮助将不胜感激。

马尔钦

我在尝试谷歌这个要求时找不到任何东西。

你找不到任何关于此的信息,因为这不是 Glue 所做的Glue 可以本机读取gzip(不是zip)文件。如果有zip,则必须自己在 S3 中转换所有文件。胶水不行。

要转换文件,您可以下载、重新打包并重新上传gzip格式或 Glue 支持的任何其他格式。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

处理嵌套 s3 文件夹中的分区 Parquet 文件的 AWS GLUE 作业失败

在AWS Glue ETL作业中从S3加载分区的json文件

在AWS Glue作业中写入S3时是否可以指定SSE:KMS密钥ID?

如何通过S3 Events或AWS Lambda触发Glue ETL Pyspark作业?

AWS Glue作业以实木复合地板格式写入s3错误,未找到

如何解压缩文件列表并将其推送到 S3?

解压缩文件并将其从Web复制到s3存储桶

通过 Python 从 AWS S3 解压缩文件

使用 AWS Glue 将 AWS Redshift 转换为 S3 Parquet 文件

适用于Mongo的AWS Glue S3中的Parquet文件

AWS Glue-如何从S3抓取Kinesis Firehose输出文件夹

AWS Glue S3目标-创建20个文件的分区

使用Scala中的AWS Glue在S3中加载CSV文件

使用Glue从AWS RDS到S3的管道

AWS Glue 抓取动态 S3 路径位置

从S3事件触发AWS EMR Spark作业

AWS Lambda(Python)无法在S3中解压缩和存储文件

将文件上传到S3存储桶后,基于事件的AWS Glue Crawler触发器?

如何在mac上正确压缩文件以通过python从s3解压缩?

从AWS S3读取多个文件

当我尝试将文件复制到 aws S3 存储桶时,Jenkins 作业失败

AWS Glue 數據從 S3 轉移到 Redshift

AWS Glue 增量爬取 S3 上不断到达的数据

存储在S3中的AWS Glue Crawlers和大型表

使用 AWS Glue 從 S3 讀取動態 DataTpes

AWS Glue不会删除或弃用现在已删除的S3数据生成的表

何时使用 Amazon Redshift 频谱通过 AWS Glue ETL 查询 Amazon S3 数据

AWS Glue 作业 - 写入单个 Parquet 文件

在Amazon S3上解压缩ZIP文件