Spark：如何递归读取目录中具有不同扩展名的所有文件？

taras 发表于 Dev

阳台

我在 HDFS 中有一个这样的目录结构：

folder
├── sub1
│   ├── a
│   │   └── f1.txt
│   └── b
│       └── f2.parquet
└── sub2
    ├── a
    │   └── f3.jpg
    └── b
        └── f4.unknown

有没有办法在使用 spark.txt 阅读时跳过一些文件（带有一些未知扩展名）。我可以读取目录中存在的所有文件吗？

不列颠哥伦比亚省莫哈纳

Spark 提供了不同的读取 API 来处理不同的文件格式。

例子：

如果你想阅读 txt/csv 文件，你可以使用 spark.read.text 或 spark.read.csv 方法。对于 json 格式，您可以使用 spark.read.json，对于 parquet spark.read.parquet 等。您需要使用与文件格式相关的方法来获取正确的数据帧。

Spark 版本 < 3.0.0

假设您在问题中指定的文件夹结构下有不同格式的文件。您需要使用以下代码才能读取 csv 文件。

spark.read.csv("folder/sub1/a/*.csv", "folder/sub2/a/*.csv","folder/sub1/b/*.csv", "folder/sub2/b/*.csv")

火花版本 >=3.0.0

在此版本中，您可以使用 pathGlobFilter、recursiveFileLookup 等选项，而不是指定每个子文件夹路径，并仅将父文件夹路径传递给 read 方法。阅读本文档。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-7

我来说两句

0 条评论

登录后参与评论

上一篇：检查 imageView 是否为空

如何使用Python递归复制目录中具有特定扩展名的所有文件？

Spark：如何递归读取目录中具有不同扩展名的所有文件？

Spark：如何递归读取目录中具有不同扩展名的所有文件？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用