查找最新文件pyspark

他们

所以我想出了如何使用python查找最新文件。现在,我想知道是否可以使用pyspark找到最新文件。目前,我指定了一个路径,但我希望pyspark获得最新的修改文件。

当前代码如下:

df = sc.read.csv("Path://to/file", header=True, inderSchema=True)

在此先感谢您的帮助。

vert

我从以下答案中复制了代码,以使HDFS API与PySpark一起使用:Pyspark:获取HDFS路径上的文件/目录列表

URI           = sc._gateway.jvm.java.net.URI
Path          = sc._gateway.jvm.org.apache.hadoop.fs.Path
FileSystem    = sc._gateway.jvm.org.apache.hadoop.fs.s3.S3FileSystem
Configuration = sc._gateway.jvm.org.apache.hadoop.conf.Configuration

fs = # Create S3FileSystem object here

files = fs.listStatus(Path("Path://to/file"))

# You can also filter for directory here
file_status = [(file.getPath().toString(), file.getModificationTime()) for file in files]

file_status.sort(key = lambda tup: tup[1], reverse= True)

most_recently_updated = file_status[0][0]

spark.read.csv(most_recently_updated).option(...)

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章