根据spark中的值删除重复的键

Leeren 发表于 Dev

清空

假设我有一个通过并行化键值对列表[（1，4），（2、3），（1、1），（1、0），（2,0）]给出的RDD，我想要根据值删除具有相同键的元组（因此，对于具有相同键的元组，仅保留值最低的元组）。因此，我想应用一个转换，使得RDD最终由[（1,0），（2,0）]表示（只要删除正确的副本，我不在乎在此订购）。目前，我在打电话

RDD = RDD.map(lambda (x, y): (y, x)).sortByKey().map(lambda (x, y): (y, x)).reduceByKey(lambda x, y: x)

前三个转换让我按值排序，最后一个仅删除重复的键（由于我的元组按值排序，因此最小值的元组副本保持原样）。这很好用，但是我觉得这样做肯定会使事情复杂化，并导致性能过高。有谁知道如何简化这一点？帮助将不胜感激！谢谢。

亚伦曼

基本上很简单rdd.reduceByKey(Math.min(_,_))-这是针对scala的

在Python中，我想那是
rdd.reduceByKey(lambda (x,y) : min(x,y))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-03-24

我来说两句

0 条评论

登录后参与评论

TOP 榜单

文章

根据spark中的值删除重复的键

根据spark中的值删除重复的键

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成