如何从RDD中删除重复值[PYSPARK]

130

巴蒂王子

我有下表作为RDD：

Key Value
1    y
1    y
1    y
1    n
1    n
2    y
2    n
2    n

我想从中删除所有重复项Value。

输出应如下所示：

Key Value
1    y
1    n
2    y
2    n

在pyspark中工作时，输出应作为键值对的列表出现，如下所示：

[(u'1',u'n'),(u'2',u'n')]

我不知道如何在for这里应用循环。在普通的Python程序中，这将非常容易。

我想知道是否有pyspark相同的功能。

米克尔·乌基娅

恐怕我对python一无所知，因此我在此答案中提供的所有引用和代码都是相对于java的。但是，将其转换为python代码并不难。

您应该浏览以下网页。它重定向到Spark的官方网页，该网页提供了Spark支持的所有转换和操作的列表。

如果我没记错的话，最好的方法（以您的情况为准）将使用distinct()转换，该转换将返回一个包含源数据集的不同元素的新数据集（取自链接）。在Java中，它将类似于：

JavaPairRDD<Integer,String> myDataSet = //already obtained somewhere else
JavaPairRDD<Integer,String> distinctSet = myDataSet.distinct();

这样，例如：

Partition 1:

1-y | 1-y | 1-y | 2-y
2-y | 2-n | 1-n | 1-n

Partition 2:

2-g | 1-y | 2-y | 2-n
1-y | 2-n | 1-n | 1-n

将转换为：

Partition 1:

1-y | 2-y
1-n | 2-n 

Partition 2:

1-y | 2-g | 2-y
1-n | 2-n |

当然，您仍然会有多个RDD数据集，每个数据集都包含一个不同元素的列表。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-25

我来说两句

0 条评论

登录后参与评论

上一篇：从github构建R包：如何禁用构建小插图？

从 PySpark RDD 中删除重复的元组对

如何从Pyspark RDD中删除空行

如何使用pyspark在rdd中删除不可打印的字符

如何删除行中的重复值

如何删除数组中的重复值？

如何从多个选择中删除重复值？

如何从多维数组中删除重复的值？

如何从HashMap中删除重复的值

如何删除列中重复的值？

如何从表中删除重复值

如何从表中删除重复/对应的值？

如何删除或避免 LocalStorage 中的重复值

如何从值列表中删除重复项

如何从字典中删除重复值？

如何从oracle join中删除重复值？

如何删除 MONGODB 数组中的重复值？

如何从对象中删除重复的值

如何工作重复值从查询中删除

如何从SQL查询中删除重复的值

如何删除ArrayList中的重复值？

如何删除重复值？

如何从加入相同的pyspark数据帧中删除“重复”行？

如果值重复，如何从字典中删除重复项

pyspark根据列值删除重复的行

pyspark：删除大于值的重复项

在PySpark的RDD中的Dictionary之间减去值

在RDD pyspark中更新字典值

如何从PHP中的多维数组中删除重复值

如何从PHP中的数组中删除重复的值

TOP 榜单

文章

如何从RDD中删除重复值[PYSPARK]

如何从RDD中删除重复值[PYSPARK]

隐藏发件人没有短信PHP

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

在浏览器中请求URL时会发生什么？

flask-admin 如何自定义删除按钮

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

用日期数据透视表和日期顺序查询

Jqgrid：多级别组摘要

java io ioexception无法解析服务器地址解析器的响应

Swift如何使用Base64Url编码JWT标头和有效负载之类的json对象

sshd AllowGroups组未授予访问权限

jQuery无限滚动固定div中的滚动

android 背部按下

Flexbox CSS 对齐属性环境惰性？

为什么随机森林中的平均降低基尼系数取决于人口规模？

ClickHouse 创建临时表

为什么PlusShare.Builder setRecipients方法不起作用？

如何在Android中识别MICR代码

PyQt4.QtCore模块无法向sip模块注册

正则表达式，用于查找所有以任何字母开头和数字开头的文件

是否可以通过编程方式对很多动画进行重新着色？

机器密钥生成