Databricks / pyspark：如何从 Azure Blob 存储中递归获取所有完整目录路径（至少有一个文件作为内容）

交联

假设我们在 Azure Blob 存储容器（已挂载）中有一个虚拟文件夹结构，如下所示：

如您所见，最终级别不再有子文件夹（即没有文件夹和文件的组合，只有文件）。

如何以递归方式将所有完整目录路径（不包括文件路径）作为平面列表？

交联

这是一个返回完整路径（不包括文件路径）的平面列表的解决方案：

def get_all_directory_paths(base_path: str) -> list:
  """Get all full directory paths

  Parameters
  ----------
  base_path : str
      The starting path to search from

  Returns
  -------
  list
      Flat list of directory paths
  """
  
  all_paths: list = []
  
  def get_paths(base_path: str):
    dir_paths: list = dbutils.fs.ls(base_path)
    subdir_paths_test: list = [p.path for p in dir_paths if p.isDir()]
    if len(subdir_paths_test) == 0:
      all_paths.append(base_path)
    else:
      for p in dir_paths:
        if p.isDir():
          get_paths(p.path)
    
  get_paths(base_path)
  
  return all_paths

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-08-18

我来说两句

0 条评论

登录后参与评论

上一篇：查找至少参加过一次考试但没有参加过 Max 和 Min 分数的学生

TOP 榜单

文章

Databricks / pyspark：如何从 Azure Blob 存储中递归获取所有完整目录路径（至少有一个文件作为内容）

Databricks / pyspark：如何从 Azure Blob 存储中递归获取所有完整目录路径（至少有一个文件作为内容）

我来说两句

相关文章

TOP 榜单

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用

热门标签

归档