AWS Glue：如何在输出中添加带有源文件名的列？

马克沃森

有谁知道在Glue作业中将源文件名添加为列的方法吗？

我们创建了一个流程，在其中爬行了S3中的一些文件以创建模式。然后，我们编写了一个作业，将文件转换为新格式，并将这些文件作为CSV写回到另一个S3存储桶，以供我们的管道的其余部分使用。我们想要做的是访问某种作业元属性，以便我们可以向输出文件中添加一个包含原始文件名的新列。

我浏览了AWS文档和aws-glue-libs源，但没有发现任何问题。理想情况下，将有某种方法可以从awsglue.job包中获取元数据（我们使用的是python风格）。

我仍在学习Glue，因此如果我使用了错误的术语，我们深表歉意。我也用spark标签对其进行了标记，因为我相信这就是Glue在幕后使用的东西。

尤里·邦达鲁克（Yuriy Bondaruk）

您可以在您的etl工作中使用spark做到这一点：

var df = glueContext.getCatalogSource(
  database = database,
  tableName = table,
  transformationContext = s"source-$database.$table"
).getDynamicFrame()
 .toDF()
 .withColumn("input_file_name", input_file_name())

glueContext.getSinkWithFormat(
  connectionType = "s3",
  options = JsonOptions(Map(
    "path" -> args("DST_S3_PATH")
  )),
  transformationContext = "",
  format = "parquet"
).writeDynamicFrame(DynamicFrame(df, glueContext))

请记住，它仅适用于getCatalogSource（）API，不适用于create_dynamic_frame_from_options（）

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

上一篇：GIL如何处理分块I / O读/写？

AWS Glue，输出一个带有分区的文件

添加带有文件名通配符的列

AWS Glue 中的 AWS 区域

如何在AWS Glue中运行查询

在AWS Glue中添加负载

AWS Glue：如何在输出中添加带有源文件名的列？

AWS Glue：如何在输出中添加带有源文件名的列？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath