Apache Spark在完全分布式模式下对执行程序采取行动

Aya Ayaz：

我是新手，我对转换和动作如何工作有基本的了解（指南）。我正在文本文件的每行（基本上是段落）上尝试一些NLP操作。处理后，应将结果发送到服务器（REST Api）进行存储。该程序在yarn模式下的10个节点的群集上作为Spark作业（使用spark-submit提交）运行。这是我到目前为止所做的。

...
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile("data.txt");
JavaRDD<String> processedLines = lines
    .map(line -> {
        // processed here
        return result;
    });
processedLines.foreach(line -> {
    // Send to server
});

这可以工作，但是foreach循环似乎是顺序的，似乎它不在工作节点上以分布式模式运行。我对么？

我尝试了以下代码，但是它不起作用。错误：java: incompatible types: inferred type does not conform to upper bound(s)。显然，它的错误是因为它map是一种转变，而不是一种行动。

lines.map(line -> { /* processing */ })
     .map(line -> { /* Send to server */ });

我也尝试过take()，但要求int和processedLines.count()is类型long。

processedLines.take(processedLines.count()).forEach(pl -> { /* Send to server */ });

数据量巨大（大于100gb）。我想要的是处理和将其发送到服务器均应在工作程序节点上完成。map反过来，处理部分发生在工作节点上。但是我如何将处理后的数据从辅助节点发送到服务器，因为foreach似乎顺序循环发生在驱动程序中（如果我是对的）。简而言之，如何action在辅助节点而不是驱动程序中执行。

任何帮助将不胜感激。

Ajay Kr Choudhary：

foreach是火花中的动作。它基本上采用了RDD的每个元素，并对该元素应用了功能。

foreach在执行程序节点或工作程序节点上执行。它不会应用在驱动程序节点上。请注意，在运行spark的本地执行模式下，驱动程序和执行程序节点都可以驻留在同一JVM上。

检查此作为参考以获取每个说明

在尝试映射RDD的每个元素然后应用于每个元素的地方，您的方法看起来不错foreach。我之所以会花时间，是因为您要处理的数据大小（〜100GB）。

对此进行优化的一种方法是repartition输入数据集。理想情况下，每个分区的大小应为128MB，以获得更好的性能结果。您将找到许多有关进行数据重新分区的最佳实践的文章。我建议您遵循它们，它将带来一些性能上的好处。

您可以想到的第二个优化是分配给每个执行者节点的内存。在进行火花调整时，它起着非常重要的作用。

您可以想到的第三个优化是将网络呼叫批处理到服务器。当前，您正在为RDD的每个元素对服务器进行网络调用。如果您的设计允许您批处理这些网络调用，则可以在一个网络调用中发送多个元素。如果产生的延迟主要是由于这些网络调用，这也可能有所帮助。

我希望这有帮助。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-05-28

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

Apache Spark在完全分布式模式下对执行程序采取行动

Apache Spark在完全分布式模式下对执行程序采取行动

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID