我只是跑了这个:
dbutils.fs.ls("dbfs:/FileStore/")
我看到这个结果:
[FileInfo(path='dbfs:/FileStore/import-stage/', name='import-stage/', size=0),
FileInfo(path='dbfs:/FileStore/jars/', name='jars/', size=0),
FileInfo(path='dbfs:/FileStore/job-jars/', name='job-jars/', size=0),
FileInfo(path='dbfs:/FileStore/plots/', name='plots/', size=0),
FileInfo(path='dbfs:/FileStore/tables/', name='tables/', size=0)]
文件存储中不应该有东西吗?我在湖中有数百GB的数据。我在让Databricks查找这些文件时遇到各种问题。当我使用Azure数据工厂时,一切工作都很好。它开始让我发疯!
例如,当我运行此命令时:
dbutils.fs.ls("/mnt/rawdata/2019/06/28/parent/")
我收到此消息:
java.io.FileNotFoundException: File/6199764716474501/mnt/rawdata/2019/06/28/parent does not exist.
我的湖里有成千上万的文件!我不明白为什么我无法列出这些文件!
在Azure Databricks中,这是预期的行为。
示例:在dbfs:/ FileStore /中,我有三个以白色显示的文件和三个以蓝色显示的文件夹。使用databricks cli检查文件大小。
dbfs ls -l dbfs:/FileStore/
当您使用dbutils签出结果时,如下所示:
dbutils.fs.ls("dbfs:/FileStore/")
读取大于2GB的文件时要记住的重要事项:
有多种方法可以解决此问题。您可以签出我回答的类似SO线程。
希望这可以帮助。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句