我通过pycharm和pyspark shell运行spark。我堆积了这个错误:
: java.lang.OutOfMemoryError: Java heap space
at org.apache.spark.api.python.PythonRDD$.readRDDFromFile(PythonRDD.scala:416)
at org.apache.spark.api.python.PythonRDD.readRDDFromFile(PythonRDD.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
at py4j.Gateway.invoke(Gateway.java:259)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:209)
at java.lang.Thread.run(Thread.java:748)
我的代码是:
from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
import time
if __name__ == '__main__':
print("Started at " + time.strftime("%H:%M:%S"))
conf = (SparkConf()
.setAppName("TestRdd") \
.set('spark.driver.cores', '1') \
.set('spark.executor.cores', '1') \
.set('spark.driver.memory', '16G') \
.set('spark.executor.memory', '9G'))
sc = SparkContext(conf=conf)
rdd = sc.parallelize(range(1000000000),100)
print(rdd.take(10))
print("Finished at " + time.strftime("%H:%M:%S"))
这些是最大内存设置,我可以在群集上设置。我试图将所有内存分配给1个核心以创建rdd。但是在我看来,应用程序在分发数据集之前失败了。我假设创建步骤失败。我也尝试设置各种分区100-10000。我已经计算出需要多少内存,所以有10亿个整数-大约4.5-4.7Gb的内存,比我少,但没有运气。
如何优化并强制运行我的代码?
TL; DR请勿使用parallelize
外部测试和简单的实验。由于您使用Python 2.7range
并不懒惰,因此您将实现多种类型的值的完整范围:
list
调用后的Python 。使用xrange
会有所帮助,但首先不要使用parallelize
(或2018年使用Python 2)。
如果要创建一系列值,请使用 SparkContext.range
range(start, end=None, step=1, numSlices=None)
创建一个包含int的新RDD,其中包含从头到尾(不包括元素)的元素,并逐步增加每个元素。可以像python的内置range()函数一样调用。如果使用单个参数调用,则将该参数解释为end,并将start设置为0。
所以在你的情况下:
rdd = sc.range(1000000000, numSlices=100)
与DataFrame
:
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
df = spark.range(1000000000, numPartitions=100)
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句