在EMR中运行Jupyter笔记本时,没有名为“ pyspark”的模块

拉法

一般而言,我(非常)是AWS和Spark的新手,并且我试图在Amazon EMR中运行笔记本实例。当我尝试导入pyspark以启动会话并从s3加载数据时,出现错误No module named'pyspark'。我创建的集群填充了Spark选项,我在做什么错呢?

拉法

对我而言唯一有效的解决方案是将笔记本内核更改为PySpark内核,然后更改引导程序操作以安装pyspark内核默认不包含的软件包(在python version3.6中):

#!/bin/bash
sudo python3.6 -m pip install numpy \
    matplotlib \
    pandas \
    seaborn \
    pyspark

显然,默认情况下,它安装到python 2.7.16,因此它不输出任何错误消息,但是您不能导入模块,因为spark env使用Python 2.7.16。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

ModuleNotFoundError:jupyter 笔记本中没有名为“skimage”的模块

ModuleNotFoundError:没有名为“ pandas”的模块(jupyter笔记本)

jupyter笔记本导入错误:没有名为“ matplotlib”的模块

笔记本中的 matplotlib 错误:没有名为“matplotlib”的模块

Jupyter pyspark:没有名为pyspark的模块

tensorflow在anaconda控制台中工作,在笔记本中失败:.ModuleNotFoundError:没有名为“ tensorflow”的模块

ipython3-没有名为笔记本的模块

ImportError:重新格式化笔记本电脑后,没有名为git的模块

Mac OSX Yosemite上的iPython笔记本:即使已安装,也没有名为jinja2的模块

在pyspark中运行spacy,但得到ModuleNotFoundError:没有名为“spacy”的模块

正在获取:导入Spark模块时出错:没有名为“ pyspark.streaming.kafka”的模块

pyspark:ImportError:没有名为numpy的模块

ModuleNotFoundError: 没有名为“pyspark.dbutils”的模块

ModuleNotFoundError:Jupyter Notebook中没有名为“ tensorflow”的模块

Jupyter Notebook中没有名为'graphviz'的模块

ModuleNotFoundError:jupyter中没有名为“ pymysql”的模块

OSX中的jupyter内核:没有名为IPython的模块

在Jupyter Notebook ModuleNotFoundError中:没有名为'plotly'的模块

从Python运行QGIS时没有名为sip的模块

运行uWSGI时没有名为flask的模块

运行tox时“没有名为pip的模块”

Elephas未加载到PySpark中:没有名为elephas.spark_model的模块

在pyspark -pandas_udf中按组应用功能(没有名为pyarrow的模块)

ModuleNotFoundError:在虚拟环境中运行服务器时,没有名为“ django”的模块

在 Azure Function App 中运行 python 脚本时没有名为“请求”的模块出错

ImportError:在Python 3 Ubuntu中运行测试时,没有名为“ pysqlite2”的模块

在Sublime Text CLI中运行python时没有名为'statsmodels'的模块

python脚本ImportError:在Automator中运行shell脚本时没有名为'webbot'的模块

pyspark为自定义模块返回没有名为错误的模块