以编程方式将 Databricks spark-csv 添加到 Spark 1.6.2 客户端

frb 发表于 Dev

联邦调查局

我正在使用 Spark 1.6.2，开发 Python Spark 客户端（它在yarn-client模式下运行）。这里重要的是，始终在客户端机器中，我无法触发提交我的 Python 脚本，但我需要将脚本作为 Python 脚本运行。

在代码的某个点，我需要在 HDFS 中加载一个 CSV 文件作为 Spark 数据帧（即使用 SQL 上下文）。您可能知道，Spark 1.6.2 没有对基于 CSV 的数据帧的本机支持，必须使用Databricks spark-csv。

数据加载语句如下：

df = sql_context.read.load(format='com.databricks.spark.csv', path=url, header=True, inferSchema=False, delimiter=',')

问题com.databricks.spark.csv是没有找到。

我知道必须下载 Databricks spark-csv jar 并将其放在某个地方。问题是：在哪里？这是客户端机器或集群中的要求吗？

由于我不知道，我在客户端机器上尝试过这个，但没有成功：

export PYTHONPATH=/path/where/jars/were/downloaded/.
conf = SparkConf().set('spark.jars', '/path/where/jars/were/downloaded/').
conf = SparkConf().set('spark.driver.extraClassPath', '/path/where/jars/were/downloaded/'). [参考]

我也在 Spark 集群上尝试过这个，但也没有成功：

spark.jars通过 Ambari设置自定义 spark-defaults 属性。
spark.driver.extraClassPath通过 Ambari设置自定义 spark-defaults 属性。

我会记住你的命令行选项适合--jars或--packages不适合我，因为我没有运行任何 Spark 脚本:)

其他解决方案，例如在 Spark 上下文中设置 jar usingaddJar()将不起作用，因为 Spark 1.6.2 没有实现它。

那么，关于我的代码如何找到 Databricks spark-csv jar 的任何想法？

以防万一，这是错误跟踪：

java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:102)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119)
        at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:109)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
        at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
        at py4j.Gateway.invoke(Gateway.java:259)
        at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
        at py4j.commands.CallCommand.execute(CallCommand.java:79)
        at py4j.GatewayConnection.run(GatewayConnection.java:209)
        at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.ClassNotFoundException: com.databricks.spark.csv.DefaultSource
        at java.net.URLClassLoader$1.run(URLClassLoader.java:359)
        at java.net.URLClassLoader$1.run(URLClassLoader.java:348)
        at java.security.AccessController.doPrivileged(Native Method)
        at java.net.URLClassLoader.findClass(URLClassLoader.java:347)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4$$anonfun$apply$1.apply(ResolvedDataSource.scala:62)
        at scala.util.Try$.apply(Try.scala:161)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$$anonfun$4.apply(ResolvedDataSource.scala:62)
        at scala.util.Try.orElse(Try.scala:82)
        at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:62)
        ... 14 more

我读过的其他帖子...

提前致谢。

联邦调查局

最后，我在 Databricks Github 上发现了这个问题，@drorata 的回答对我有用：

export PACKAGES="com.databricks:spark-csv_2.11:1.3.0"
export PYSPARK_SUBMIT_ARGS="--packages ${PACKAGES} pyspark-shell"

通过导出上述环境变量，Databrick spark-csv 包（和依赖项）下载到我的本地.ivy2文件夹，并在创建 Spark 上下文时自动上传到集群。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-06-18

我来说两句

0 条评论

登录后参与评论

PySpark 2.x：以编程方式将Maven JAR坐标添加到Spark

以编程方式将列名称添加到从RDD构建的Spark DataFrame中

作为客户端用户将导出到 csv 选项添加到 Highcharts 图表？

将多个客户端添加到Spring OAuth2 Auth Server

Spark在读取csv时将列添加到数据框

如何将标题添加到CSV表Scala Spark

将罐子添加到Spark Job-spark-submit

Databricks spark-csv检查空文件

将标题添加到Rabbitmq C客户端

将数据从客户端添加到Apollo？

将Google API客户端添加到Codeigniter

将cookie添加到客户端请求OkHttp

Spark客户端内存配置

Spark LOCAL和Alluxio客户端

如何使用Spark将新内容添加到记录

如何将 Mlib 库添加到 Spark？

将新的键/值对添加到Spark MapType列

将常量值列添加到Spark数据框

将VectorAssembler添加到Spark ML管道时出错

将嵌套列添加到Spark DataFrame

将标头添加到 RDD[string] spark scala

将UUID添加到Spark数据集

将列元素添加到 Dataframe Scala Spark

使用VB6将缺少的节点从Treeview1添加到Treeview2

Azure Databricks：如何在Databricks群集中添加Spark配置

Spark-shell 与 Spark-submit 将 jar 添加到类路径问题

以编程方式向Spark DataFrame添加几列

如何将客户端ID添加到Java的Google Drive客户端API

简单的OData客户端-如何将代理设置添加到OData客户端

TOP 榜单

文章

以编程方式将 Databricks spark-csv 添加到 Spark 1.6.2 客户端

以编程方式将 Databricks spark-csv 添加到 Spark 1.6.2 客户端

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID