通过 Spark 查询 Amazon S3 对象元数据

smeeb 发表于 Dev

微博

Spark 2.1.x 在这里。我有一个 Spark 集群配置为读取/写入 Amazon S3。我可以像这样成功地完成这项工作：

val s3Path = "/mnt/myAwsBucket/some/*.json"
val ds = spark.read.json(s3Path)

到目前为止一切顺利——如果该位置有多个 JSON 文件，它会将所有这些文件读入一个Dataset. 我希望以某种方式获取我读取的每个 JSON 文件的上次修改时间戳并将其存储在日期时间数组中。因此，如果我正在阅读 20 个 JSON 文件，我最终会得到一个包含 20 个日期时间的数组。

知道我该怎么做吗？查看 Spark API 文档，我没有看到任何方式来查询 S3 对象的元数据......

格伦尼·赫尔斯·辛德霍尔特

您不是s3通过 Spark API查询信息，而是通过 AWS S3 开发工具包。你可以这样做：

import com.amazonaws.services.s3.AmazonS3Client

val lastModified = new AmazonS3Client().getObject("myBucket","path/to/file").getObjectMetadata.getLastModified

显然，您必须通过 Maven 下载 AWS S3 SDK 并包含依赖项。此外，我认为他们可能已经弃用了AmazonS3Client较新版本的 SDK，因此您可能需要根据您下载的 SDK 版本进行细微更改:)

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-12

我来说两句

0 条评论

登录后参与评论

上一篇：从图像的右中心使用 jquery 的图像幻灯片

TOP 榜单

文章

通过 Spark 查询 Amazon S3 对象元数据

通过 Spark 查询 Amazon S3 对象元数据

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何正确比较 scala.xml 节点？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

在令牌内联程序集错误之前预期为 ')'

数据表中有多个子行，asp.net核心中来自sql server的数据

VBA 自动化错误：-2147221080 (800401a8)

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何在JavaScript中获取数组的第n个元素？

检查嵌套列表中的长度是否相同

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

ES5的代理替代

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

如何监视应用程序而不是单个进程的CPU使用率？

如何检查字符串输入的格式

解决类Koin的实例时出错

如何自动选择正确的键盘布局？-仅具有一个键盘布局