Azure Databricks Spark XML库-尝试读取xml文件

萨蒂亚·蔚蓝

我正在尝试创建一个databricks笔记本,以从Azure Data Lake读取xml文件并将其转换为镶木地板。我从这里获得了spark-xml库-[ https://github.com/databricks/spark-xml]我遵循了github中提供的示例,但无法使其正常工作。

df = (spark.read.format("xml")
  .option("rootTag","catalog") \
  .option("rowTag", "book") \
  .load("adl://mysandbox.azuredatalakestore.net/Source/catalog.xml"))


  Exception Details:

  java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

  StackTrace: 

 /databricks/spark/python/pyspark/sql/readwriter.py in load(self, path, 
 format, schema, **options)
  164         self.options(**options)
  165         if isinstance(path, basestring):
  --> 166             return self._df(self._jreader.load(path))
  167         elif path is not None:
  168             if type(path) != list:

  /databricks/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in 
  __call__(self, *args)
  1255         answer = self.gateway_client.send_command(command)
  1256         return_value = get_return_value(
  -> 1257             answer, self.gateway_client, self.target_id, 
  self.name)
  1258 

我还需要定义其他依赖项来解析xml吗?感谢帮助。

萨蒂亚·蔚蓝

ew,终于解决了问题。错误消息没有提供任何异常详细信息,但问题在于spark-xml库与集群的scala版本之间的版本差异。我更新了该库以使其与集群版本匹配,问题得以解决。希望它可以帮助遇到同样问题的人。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何读取XML文件Azure Databricks Spark

Azure Datalake Store Gen2 使用 scala spark 库从 Databricks 读取文件

Databricks包com.databricks.spark.xml出现编码问题

从Azure Databricks读取Excel文件

在 Windows 10 上,如何使用 Apache Spark 从 Azure Blob 读取文件而没有 Databricks 但使用 wasbs?

Azure Databricks:如何在Databricks群集中添加Spark配置

在Azure Databricks中编写Spark数据框

com.microsoft.sqlserver.jdbc.SQLServerException:从 Apache Spark Databricks 读取 Azure SQLDB 时出错

无法读取 Azure Databricks 上的 .xlsx 文件

Databricks Spark CREATE TABLE 需要永远处理 100 万个小型 XML 文件

使用 spark databricks 平台从 URL 读取数据

如何从 Azure Data Lake Gen2 访问 XML 文件并将其转换为 Azure Databricks 中的数据帧?

将 Spark 数据帧从 Databricks 写入 Azure Synapse 时出错

Azure Databricks:使用Spark SQL进行地理空间查询

在没有Spark群集的情况下运行Azure Databricks

Spark 将检索到的数据保存在 Azure Databricks 的何处?

如何更改Azure Databricks中Spark用户的运行作业?

在 Azure Databricks 的群集 Spark 配置中设置数据湖连接

Databricks spark-csv检查空文件

从Spark Databricks文件系统填充属性对象

尝试读取Rapid XML中的节点会导致错误

尝试读取 XML 文档时,节点返回 null

从Databricks中的Azure Datalake读取AVRO

多个 Azure DevOps 项目 GIT 与单个 Azure Databricks 存储库

Azure Databricks中的外部属性文件

为什么在尝试读取XML文件时fs.readFile引发意外令牌的语法错误?

从Azure Databricks读取Azure Datalake Gen2图像

Spark:在不使用com.databricks.spark.avro的情况下读取avro文件

如何在Azure Databricks群集上安装gurobi库?