RDD操作对pyspark中的值进行排序

Mass17 发表于 Dev

质量17

我的档案格式如下

0, Alpha,-3.9, 4, 2001-02-01, 5, 20
0, Beta,-3.8, 3, 2002-02-01, 6, 21
1, Gamma,-3.7, 8, 2003-02-01, 7, 22
0, Alpha,-3.5, 4, 2004-02-01, 8, 23
0, Alpha,-3.9, 4, 2005-02-01, 8, 27

我想1st elements通过3rd elements使用rdd操作在每一行中进行排序。我更喜欢得到以下输出，

(Beta, 3)
(Alpha, 4)
(Gamma, 8)

这是我目前所做的

rdd = sc.textFile(myDataset)
list_ = rdd.map(lambda line: line.split(",")).map(lambda e : e[1]).distinct().collect() 
new_ = list_.sortBy(lambda e : e[2])

但是我无法按照自己的意愿进行排序。谁能说出仅基于rdd的操作方法吗？

科泽克

rdd = sc.textFile(myDataset) 是正确的。

list_ = rdd.map(lambda line: line.split(",")).map(lambda e : e[1]).distinct().collect() 
new_ = list_.sortBy(lambda e : e[2]) # e[2] does not exist.

您已经调用collect on list_，因此它不再是RDD。然后，您继续对其进行调用sortBy，因此它将无法正常工作。也许您在发布时犯了这个错误。主要问题是地图操作。您需要创建一个pairWiseRdd，但尚未创建一个。因此，没有e[2]可排序的。见下文。

>>> rdd.map(lambda line: line.split(",")).map(lambda e : e[1]).collect()
[' Alpha', ' Beta', ' Gamma', ' Alpha', ' Alpha']

上面没有您需要使用的值。distinct()相反，您需要这样做

>>> list_ = rdd.map(lambda line: line.split(",")).map(lambda e : (e[1],e[3]))
>>> list_.collect()
[(' Alpha', ' 4'),
 (' Beta', ' 3'),
 (' Gamma', ' 8'),
 (' Alpha', ' 4'),
 (' Alpha', ' 4')]
>>> distinct_rdd = list_.distinct() #making stuff distinct
>>> distinct_rdd.collect()
[(' Alpha', ' 4'), (' Beta', ' 3'), (' Gamma', ' 8')]

现在我们已经创建了pairWiseRdd，我们可以使用每对的第二个值对其进行排序。

>>> sorted_rdd = distinct_rdd.sortBy( lambda x:x[1] )
>>> sorted_rdd.collect()
[(' Beta', ' 3'), (' Alpha', ' 4'), (' Gamma', ' 8')]

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-21

我来说两句

0 条评论

登录后参与评论

上一篇：如何使用数组中png的名称以两种不同方式对数组进行排序

如何使用C＃互操作对Excel中的列进行重新排序

如何仅使用python中的堆栈操作对堆栈进行排序？

Spark：按元组/列中的多个值对RDD进行排序

根据列中的不同值对 RDD 进行排序

在 Spark 中对 RDD 进行排序

使用 PowerShell 操作对象中的字符串值

Django-通过布尔操作对模型进行排序的最佳方法

使用有限的操作对双端队列进行排序？

如何在 Scala 中按值对 RDD 数据（键、值）进行排序？

对中的值进行排序

PySpark-按第二列对RDD进行排序

如何从RDD中删除重复值[PYSPARK]

在PySpark的RDD中的Dictionary之间减去值

在RDD pyspark中更新字典值

在火花对RDD中按值排序

在pyspark中对列表进行排序的udf

如何在pyspark中对列进行排序后从头开始获取索引值？

在Pyspark和Python中对具有多个值的字符串进行排序

如何在连接pyspark中的文本列之前对值进行排序

Pyspark-如何在RDD操作中检查变量

在Javascript中操作对象数组

在javascript中操作对象树

在Reducer操作中对数据进行排序

在地图上进行操作时，键和值的排序是否保留在Elixir中？

文本操作：从排序列表中删除值x <= $ input并进行概括

pyspark：仅基于rdd的操作

如何在Spark中对RDD进行排序和限制？

如何对 spark.rdd 中的列进行分组和排序

根据列值对pyspark数据框进行排序

TOP 榜单

文章

RDD操作对pyspark中的值进行排序

RDD操作对pyspark中的值进行排序

计算数据帧R中的字符串频率

Android Studio Kotlin：提取为常量

Excel 2016图表将增长与4个参数进行比较

获取并汇总所有关联的数据

如何使用Redux-Toolkit重置Redux Store

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

将加号/减号添加到jQuery菜单

算术中的c ++常量类型转换

TYPO3：将 Formhandler 添加到新闻扩展

TreeMap中的自定义排序

如何开始为Ubuntu开发

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

无法使用 envoy 访问 .ssh/config

在Ubuntu和Windows中，触摸板有时会滞后。硬件问题？

遍历元素数组以每X秒在浏览器上显示

在Jenkins服务器中使用Selenium和Ruby进行的黄瓜测试失败，但在本地计算机中通过

警告消息：在matrix（unlist（drop.item），ncol = 10，byrow = TRUE）中：数据长度[16]不是列数的倍数[10]>？

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

如何使用tweepy流式传输来自指定用户的推文（仅在该用户发布推文时流式传输）

尝试在Dell XPS13 9360上安装Windows 7时出错

如果从DB接收到的值为空，则JMeter JDBC调用将返回该值作为参数名称