将行合并到列表中以获取SPARK中的相似值

Hyder Tom 发表于 Dev

15

海德汤姆

Spark版本2.0.2.6和Scala版本2.11.11

我有以下csv文件。

sno name    number
1   hello   1
1   hello   2
2   hai 12
2   hai 22
2   hai 32
3   how 43
3   how 44
3   how 45
3   how 46
4   are 33
4   are 34
4   are 45
4   are 44
4   are 43

我希望输出为：

sno name    number
1   hello   [1,2]
2   hai [12,22,32]
3   how [43,44,45,46]
4   are [33,34,44,45,43]

列表中元素的顺序并不重要。

使用适当的数据框或RDD。

谢谢汤姆

最大容量

import org.apache.spark.sql.functions._

scala> df.groupBy("sno", "name").agg(collect_list("number").alias("number")).sort("sno").show()
+---+-----+--------------------+
|sno| name|              number|
+---+-----+--------------------+
|  1|hello|              [1, 2]|
|  2|  hai|        [12, 22, 32]|
|  3|  how|    [43, 44, 45, 46]|
|  4|  are|[33, 34, 45, 44, 43]|
+---+-----+--------------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-10

我来说两句

0 条评论

登录后参与评论

上一篇：如何获得法拉第/扫描以遍历整个DynamoDB表？

相关文章

将列值合并到列表中

将行合并到PrestoSQL中的列表中

将行合并到R中的列表中

熊猫-将列值合并到新列的列表中

如何将列表作为值合并到字典中？

将列表合并到字典列表中

将多个行值合并到单个列中

将元素合并到元组列表中

使用 python 将多列中的值合并到每行中的一个列表中

如何将多个行中的值合并到Excel中的单个行中？

将元组列表与列表合并到列表中

如何将数据帧的每一行合并到python中的列表中

将列表列表的维合并到单独的向量中

将列表列表合并到数据框熊猫中

如何将唯一的行值合并到多个列中的单个列中？

如何将具有特定值的行合并到 R 中的表中？

如何根据唯一的行值将列值合并到向量列中？

将嵌套的键/值和嵌套列表合并到json中

Pandas将具有多个值的行数据合并到列的Python列表中

如何将具有相同ID的行合并到列表中

熊猫：groupby列，将列表的行合并到group的单个列中？

将数组中相同键的值合并到值数组

Spark：如何将 json 对象合并到数组中

将 Spark 输出合并到单个文件中

将列数据合并到python中的行中

将三行的输出合并到sql中的单个值

根据列中的最大值将行合并到映射类型

将 JSON 值合并到 dataTable 的一个行表中

Python-Pandas-根据类别值将多列的行合并到数据框中的单行

TOP 榜单

文章

热门标签

归档