在Java Spark中收集数据集时超出了OutOfMemoryError GC开销限制

114

丹·马特林：

我有一些大约250MB的数据。

我想加载数据并将其转换为地图

class MyData implements Serializable {

    private Map<String, List<SomeObject>> myMap;

    MyData(SparkSession sparkSession, String inputPath) {

        Dataset<Klass> ds = sparkSession.read().json(inputPath).as(Encoders.bean(Klass.class));
        myMap = ds.collectAsList().stream().collect(Collectors.toMap(
                                    Klass::getField1(),
                                    Klass::getField2()
                            )
                    );
    }
}

这是我的火花执行配置

--master yarn --deploy-mode cluster --executor-cores 2 --num-executors 200 --executor-memory 10240M

将数据集转换为列表/地图不是一个好习惯吗？还是配置问题？还是代码问题？

史蒂夫C：

看起来您可以使用以下命令将数据集中的所有数据收集到Spark驱动程序中：

myMap = ds.collectAsList()...

因此，您应该--driver-memory 2G在命令行上使用来设置驱动程序内存（又名“火花执行配置”）。

该参数的默认值1G可能不足以容纳250M的原始数据。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-05-2

我来说两句

0 条评论

登录后参与评论

Java Spark-java.lang.OutOfMemoryError：超出了GC开销限制-大数据集

Tomcat java.lang.OutOfMemoryError：超出了GC开销限制

java.lang.OutOfMemoryError：超出了GC开销限制

在Java Spark中收集数据集时超出了OutOfMemoryError GC开销限制

在Java Spark中收集数据集时超出了OutOfMemoryError GC开销限制

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接