在EMR的Jupyter / JupiterHub上将库添加到PySpark内核

阿韦雷尔

我正在尝试将Matplotlib与PySpark3配合使用,并在AWS EMR(5.20)的docker上运行的JupyterHub(0.9.4)上使用。该JupyterHub上预装有4个内核:Python,PySpark,PySpark3和Spark。用Python内核导入Matplotlib没问题。但是,当我尝试使用PySpark或PySpark3内核“将matplotlib导入为plt”时,我得到了消息“未找到matplotlib”。一直试图找到一个人,但没有运气。

能否请你帮忙?

谢谢和问候,Averell

阿韦雷尔

进一步的阅读表明我错了:使用PySpark内核实际上将在Spark集群上运行代码(EMR本身),而使用Python内核将使代码在JupyterHub服务器上运行(docker映像)。

Matplotlib预先安装在docker映像上,而不是EMR上。在EMR主节点上安装matplotlib将解决PySpark内核中的导入问题。但是,这对使用Spark中的数据框绘制图形没有帮助(至少现在对我而言)。

通过遵循本指南,我终于可以得到我想要的东西-将结果传输到“本地”(此处“本地”是指JupyterHub服务器-docker映像),然后使用%% local magic在本地使用matplotlib https : //github.com /jupyter-incubator/sparkmagic/blob/master/examples/Pyspark%20Kernel.ipynb

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

无法将python3内核添加到Jupyter

如何将目录添加到Jupyter / JupyterLab笔记本?

为Jupyter创建pyspark内核

将流式传输步骤添加到在AWS EMR 5.0上运行的boto3中的MR作业中

PyCharm Jupyter笔记本:将Jupyter添加到当前项目的解释器中

jupyter-notebook:将CSS类添加到输出单元格

EMR Jupyter Notebook的访问凭据

使用Jupyter Notebook中的PySpark从AWS EMR集群读取存储在AWS S3中的未压缩Shapefile

如何在Amazon EMR中运行的Presto中将分区添加到分区表中?

如何在AWS EMR上将Graphsframe与pyspark结合使用?

如何将功能从自定义JAR添加到EMR集群?

udf与scipy在亚马逊emr jupyter笔记本上

将Anaconda添加到PATH后,Jupyter Notebook无法打开?

在EMR中运行Jupyter笔记本时,没有名为“ pyspark”的模块

从Pyspark EMR访问AWS RDS

如何添加EMR Spark Step?

如何将最新的Julia版本添加到Jupyter Notebook

Amazon EMR隧道飞艇和Jupyter笔记本

在Windows上将符号链接添加到存储库

使用jupyter笔记本将软件包添加到pyspark

在Windows上将dir添加到gitignore

如何在IntelliJ IDEA上将Jar文件添加到外部库

如何在Cloud Formation模板中将mapreduce.reduce.memory.mb属性添加到EMR集群?

将 R 内核添加到 Jupyter Notebook 时出现错误代码 127

在不使用anaconda的情况下将java内核添加到jupyter

将自定义环境变量添加到 AWS EMR 的标准做法是什么?

当前步骤失败时,AWS 步骤函数不会将下一步添加到 EMR 集群

将变量添加到 ! jupyter 中的命令

使用 cloudformation 將 ec2 密鑰對添加到 EMR 集群