我正在尝试将Matplotlib与PySpark3配合使用,并在AWS EMR(5.20)的docker上运行的JupyterHub(0.9.4)上使用。该JupyterHub上预装有4个内核:Python,PySpark,PySpark3和Spark。用Python内核导入Matplotlib没问题。但是,当我尝试使用PySpark或PySpark3内核“将matplotlib导入为plt”时,我得到了消息“未找到matplotlib”。一直试图找到一个人,但没有运气。
能否请你帮忙?
谢谢和问候,Averell
进一步的阅读表明我错了:使用PySpark内核实际上将在Spark集群上运行代码(EMR本身),而使用Python内核将使代码在JupyterHub服务器上运行(docker映像)。
Matplotlib预先安装在docker映像上,而不是EMR上。在EMR主节点上安装matplotlib将解决PySpark内核中的导入问题。但是,这对使用Spark中的数据框绘制图形没有帮助(至少现在对我而言)。
通过遵循本指南,我终于可以得到我想要的东西-将结果传输到“本地”(此处“本地”是指JupyterHub服务器-docker映像),然后使用%% local magic在本地使用matplotlib :https : //github.com /jupyter-incubator/sparkmagic/blob/master/examples/Pyspark%20Kernel.ipynb
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句