火花reduceByKey（）不拖欠最终的总和

Tomy 发表于 Dev

汤米

我有一个包含一些对象计数的RDD，然后在其上应用reduceByKey（），将所有元素加起来（如单词计数示例中所示）。我已经将reduceByKey转换的输出保存到一个文本文件中，并且每个工人的总和是：

(work at  LEFT null,9741)
(work at  LEFT null,10073)
(work at  LEFT null,10348)
(work at  LEFT null,10483)
(work at  LEFT null,10754)

难道它不只是一项，而是全部的总和吗？

如果需要更多细节，我会提供。

LE：我要计算的对象由以下项定义

public class Pattern {
     string pattern;
     PatternType type;
     Relation r;
}

尤瓦尔·伊茨恰科夫（Yuval Itzchakov）

在Spark中，PairRDDFunctions.reduceByKey使用RDD[(K, V)]并使用已定义的分区程序对数据进行分区（造成随机播放）。如果没有提供这样的分区程序，它将使用默认值HashPartitioner来决定将哪个键值对传递给哪个工作程序。如果您将Java类用作不会覆盖其hashCode方法的键，reduceByKey则将决定如何基于Java的数据对数据进行分区Object.hashCode。这意味着相同的密钥将被分担给不同的工作人员，在那里它们将部分减少。理想情况下，这不是您想要的。您想要的是具有相同密钥的所有对象都将通过相同的工作线程减少。然后，当在每个工作人员还原自己的密钥后将它们重新混合时，所有键的组合器将无法根据其哈希码来匹配键，这解释了为什么您只看到部分减少的数据而不是汇总的数据单个键上的数据。

你需要做的是提供适当hashCode 和 equals执行。这在Spark文档中有所说明（感谢@VitaliyKotlyarenko）：

注意：在键-值对操作中使用自定义对象作为键时，必须确保自定义equals（）方法与匹配的hashCode（）方法一起使用。有关完整的详细信息，请参见Object.hashCode（）文档中概述的合同。

例如：

public class Pattern {
     string pattern;
     PatternType type;
     Relation r;

     @Override
     public int hashCode() {
        return 371 * pattern.hashCode();
     }

     @Override 
     public boolean equals(Object other) {
        if (this == other) return true;
        if (other == null || this.getClass() != other.getClass()) return false;

        Pattern pattern = (Pattern) other;
        return this.pattern.equals(pattern.pattern);
     }
}

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-04-17

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

火花reduceByKey（）不拖欠最终的总和

火花reduceByKey（）不拖欠最终的总和

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用