Azure Databricks Spark XML库-尝试读取xml文件

萨蒂亚·蔚蓝

我正在尝试创建一个databricks笔记本，以从Azure Data Lake读取xml文件并将其转换为镶木地板。我从这里获得了spark-xml库-[ https://github.com/databricks/spark-xml]。我遵循了github中提供的示例，但无法使其正常工作。

df = (spark.read.format("xml")
  .option("rootTag","catalog") \
  .option("rowTag", "book") \
  .load("adl://mysandbox.azuredatalakestore.net/Source/catalog.xml"))


  Exception Details:

  java.lang.NoClassDefFoundError: scala/collection/GenTraversableOnce$class

  StackTrace: 

 /databricks/spark/python/pyspark/sql/readwriter.py in load(self, path, 
 format, schema, **options)
  164         self.options(**options)
  165         if isinstance(path, basestring):
  --> 166             return self._df(self._jreader.load(path))
  167         elif path is not None:
  168             if type(path) != list:

  /databricks/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py in 
  __call__(self, *args)
  1255         answer = self.gateway_client.send_command(command)
  1256         return_value = get_return_value(
  -> 1257             answer, self.gateway_client, self.target_id, 
  self.name)
  1258

我还需要定义其他依赖项来解析xml吗？感谢帮助。

萨蒂亚·蔚蓝

ew，终于解决了问题。错误消息没有提供任何异常详细信息，但问题在于spark-xml库与集群的scala版本之间的版本差异。我更新了该库以使其与集群版本匹配，问题得以解决。希望它可以帮助遇到同样问题的人。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-31

我来说两句

0 条评论

登录后参与评论

上一篇：如何从XMonad中的所有浮动窗口中删除边框

TOP 榜单

文章

Azure Databricks Spark XML库-尝试读取xml文件

Azure Databricks Spark XML库-尝试读取xml文件

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException