如标题中所示。我知道textFile,但顾名思义,它仅适用于文本文件。我需要访问HDFS路径(或本地路径)内的文件/目录。我正在使用pyspark
感谢帮助
我认为将Spark仅仅视为一种数据处理工具是有用的,其域始于加载数据。它可以读取多种格式,并且支持Hadoop Glob表达式,这对于从HDFS中的多个路径读取非常有用,但是它没有我知道的用于遍历目录或文件的内置工具,也没有与Hadoop或HDFS交互专用的实用程序。
有一些可用的工具可以执行所需的操作,包括esutil和hdfs。hdfs库同时支持CLI和API,您可以在此处直接跳转至“如何在Python中列出HDFS文件” 。看起来像这样:
from hdfs import Config
client = Config().get_client('dev')
files = client.list('the_dir_path')
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句