Jupyter pyspark:没有名为pyspark的模块

索拉米斯拉

Google确实为这个问题提供了解决方案,但不幸的是,即使尝试了所有可能性,它也无法正常运行,所以请耐心等待,看看有什么好主意。

操作系统:MAC

火花:1.6.3(2.10)

Jupyter笔记本:4.4.0

的Python:2.7

斯卡拉:2.12.1

我能够成功安装并运行Jupyter Notebook。接下来,我尝试将其配置为与Spark配合使用,为此我使用Apache Toree安装了Spark解释器。现在,当我尝试在笔记本中运行任何RDD操作时,会引发以下错误

Error from python worker:
  /usr/bin/python: No module named pyspark
PYTHONPATH was:
  /private/tmp/hadoop-xxxx/nm-local-dir/usercache/xxxx/filecache/33/spark-assembly-1.6.3-hadoop2.2.0.jar

已经尝试过的事情:1.在.bash_profile中设置PYTHONPATH 2.能够在本地的python-cli中导入“ pyspark” 3.尝试将解释器kernel.json更新为以下内容

{
  "language": "python",
  "display_name": "Apache Toree - PySpark",
  "env": {
    "__TOREE_SPARK_OPTS__": "",
    "SPARK_HOME": "/Users/xxxx/Desktop/utils/spark",
    "__TOREE_OPTS__": "",
    "DEFAULT_INTERPRETER": "PySpark",
    "PYTHONPATH": "/Users/xxxx/Desktop/utils/spark/python:/Users/xxxx/Desktop/utils/spark/python/lib/py4j-0.9-src.zip:/Users/xxxx/Desktop/utils/spark/python/lib/pyspark.zip:/Users/xxxx/Desktop/utils/spark/bin",
  "PYSPARK_SUBMIT_ARGS": "--master local --conf spark.serializer=org.apache.spark.serializer.KryoSerializer",
    "PYTHON_EXEC": "python"
  },
  "argv": [
    "/usr/local/share/jupyter/kernels/apache_toree_pyspark/bin/run.sh",
    "--profile",
    "{connection_file}"
  ]
}
  1. 甚至更新了解释器run.sh以显式加载py4j-0.9-src.zip和pyspark.zip文件。当打开PySpark笔记本并创建SparkContext时,我可以看到从本地上传了spark-assembly,py4j和pyspark包,但是仍然在调用操作时,仍然找不到pyspark。
y

使用findspark lib绕过所有环境设置过程。这是更多信息的链接。https://github.com/minrk/findspark

如下使用。

import findspark
findspark.init('/path_to_spark/spark-x.x.x-bin-hadoopx.x')
from pyspark.sql import SparkSession

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

在EMR中运行Jupyter笔记本时,没有名为“ pyspark”的模块

ModuleNotFoundError:Jupyter Notebook中没有名为“ tensorflow”的模块

Jupyter Notebook中没有名为'graphviz'的模块

没有名为graphframes的模块Jupyter Notebook

Matplotlib,Jupyter Notebook:ImportError:没有名为Tkinter的模块

Jupyter Notebook ImportError:没有名为枚举的模块

ModuleNotFoundError:jupyter中没有名为“ pymysql”的模块

OSX中的jupyter内核:没有名为IPython的模块

在Jupyter Notebook ModuleNotFoundError中:没有名为'plotly'的模块

Jupyter:安装后没有名为“ imblearn”的模块

ImportError:没有名为“ jupyter_client”的模块

Jupyter 与 IPython:Matplotlib - 没有名为 Tkinter 的模块

ModuleNotFoundError:没有名为“pandas”的模块 - Jupyter

jupyter ModuleNotFoundError:没有名为 Tensorflow 或 keras 的模块

从cmd运行Jupyter Notebook会引发ModuleNotFoundError:没有名为pysqlite2的模块

正在获取ModuleNotFoundError:在Jupyter Notebook上导入时,没有名为“ plotnine”的模块

Jupyter Notebook ModuleNotFoundError:没有名为“sklearn.impute”的模块

ModuleNotFoundError:没有名为“ pandas”的模块(jupyter笔记本)

Jupyter Notebook ImportError:没有名为tornado.log的模块

导入 Spacy 时出现 Jupyter Notebook Python 错误:没有名为 click._bashcomplete 的模块

没有名为'pandas'的模块-Jupyter,Python3内核,通过Docker的TensorFlow

导入错误:使用 docker 在 Jupyter Notebook 上没有名为...的模块

jupyter笔记本导入错误:没有名为“ matplotlib”的模块

对于Jupyter,没有名为“ imagenet_utils”的模块,但在Spyder上存在

Jupyter内核不断崩溃-“没有名为hint_toolkit.formatted_text的模块”

Anaconda Jupyter Python2.7“导入错误:没有名为opencv的模块”

ModuleNotFoundError:jupyter 笔记本中没有名为“skimage”的模块

ModuleNotFoundError:没有名为“ matplotlib”的模块-在Heroku上部署Jupyter项目的问题

如何解决 VS 代码(Jupyter env)中没有名为“pyautogui”的模块?