Spark：按键对数组中的行进行分组

马可·蒂佐尼

我有一个像这样的火花数据集：

key id val1 val2 val3
1   a  a1   a2   a3
2   a  a4   a5   a6
3   b  b1   b2   b3
4   b  b4   b5   b6
5   b  b7   b8   b9
6   c  c1   c2   c3

我想将所有行按ID分组在列表或数组中，如下所示：

(a, ([1   a  a1   a2   a3], [2   a  a4   a5   a6]) ),
(b, ([3   b  b1   b2   b3], [4   b  b4   b5   b6], [5   b  b7   b8   b9]) ),
(c, ([6   c  c1   c2   c3]) )

我已经使用map来输出带有正确键的键/值对，但是在构建最终键/数组时遇到了麻烦。

有人可以帮忙吗？

阿萨夫·门德尔森

这个怎么样：

import org.apache.spark.sql.functions._
df.withColumn("combined",array("key","id","val1","val2","val3")).groupby("id").agg(collect_list($"combined"))

Array函数将列转换为列数组，然后将其转换为带有collect_list的简单groupby

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-5

我来说两句

0 条评论

登录后参与评论

上一篇：从Azure函数中的配置文件加载连接字符串

按键中的字符串对数组值进行分组？

Mongodb-按键对数组进行分组

在Spark中对行进行分组

Python / Numpy：按通用元素对数组行进行分组

如何在 PHP Laravel Builder 查询中按键对数组进行分组

如何按季度对数据框中的行进行分组？

根据日期列对数据框中的行进行分组

根据列对数据框中的多行进行分组

在php中对数组元素进行分组

如何对数组中的项目进行分组？

如何对数组中的对象进行分组

使用lodash按键对数组中的对象进行排序

在PHP中按键功能对数组进行排序

基于多列值对数组行进行分组和过滤

按键对地图/结构进行分组，然后对数组的关联值求和

希望通过子数组中的值对数组进行分组

Spark Scala-如何对数据框行进行分组并将复杂功能应用于分组？

在python中按键对对象数组进行分组

如何使用php在多维数组中按键对项目进行分组

在GTSummary中对行进行分组

在 Polars 中对行进行分组

如何按Spark中的字段对数据进行分组？

在foreach中对数组中的项进行分组和求和

PHP。按键对数组元素进行排序

Symfony / TWIG，按键对数组进行排序

对数据框行进行分组并对其进行处理

在数据框列表中按天对数据框的行进行分组

根据某些行名称对数据框中的行进行分组和转置

按 R 中的连续值对数据框行进行分组

TOP 榜单

文章

Spark：按键对数组中的行进行分组

Spark：按键对数组中的行进行分组

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException