Pyspark:获取HDFS路径上的文件/目录列表

费德里科·庞齐(Federico Ponzi):

如标题中所示。我知道textFile,但顾名思义,它仅适用于文本文件。我需要访问HDFS路径(或本地路径)内的文件/目录。我正在使用pyspark

感谢帮助

特里斯坦·里德(Tristan Reid):

我认为将Spark仅仅视为一种数据处理工具是有用的,其域始于加载数据。它可以读取多种格式,并且支持Hadoop Glob表达式,这对于从HDFS中的多个路径读取非常有用,但是它没有我知道的用于遍历目录或文件的内置工具,也没有与Hadoop或HDFS交互专用的实用程序。

有一些可用的工具可以执行所需的操作,包括esutilhdfshdfs库同时支持CLI和API,您可以在此处直接跳转至“如何在Python中列出HDFS文件” 看起来像这样:

from hdfs import Config
client = Config().get_client('dev')
files = client.list('the_dir_path')

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章