如何从pyspark中的列创建列表列

quant 发表于 Dev

至于

我有以下 pyspark 数据框：

import pandas as pd
foo = pd.DataFrame({'id': ['a','a','a','a', 'b','b','b','b'],
                    'time': [1,2,3,4,1,2,3,5],
                    'col': ['1','2','1','2','3','2','3','2']})

foo_df = spark.createDataFrame(foo)
foo_df.show()

+---+----+---+
| id|time|col|
+---+----+---+
|  a|   1|  1|
|  a|   2|  2|
|  a|   3|  1|
|  a|   4|  2|
|  b|   1|  3|
|  b|   2|  2|
|  b|   3|  3|
|  b|   5|  2|
+---+----+---+

我希望每行有 1 行，id而一列将包含 alist和该列中的值col。输出将如下所示：

+---+------------------+
| id|               col|
+---+------------------+
|  a| ['1','2','1','2']|
|  b| ['3','2','3','2']|
+---+------------------+

fskj

您可以在列上使用 a goupBy，id然后在collect_list列上使用 a col：

import pyspark.sql.functions as F
list_df = foo_df.groupBy(F.col("id")).agg(F.collect_list(F.col("col")).alias("col"))
list_df.show()

输出：

+---+------------+
| id|         col|
+---+------------+
|  a|[1, 2, 1, 2]|
|  b|[3, 2, 3, 2]|
+---+------------+

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2022-05-26

我来说两句

0 条评论

登录后参与评论

上一篇：如何在循环分类 wordpress 中显示 url 分类？

如何从列表列创建组合的Pyspark数据框

如何使用数据框列中的唯一值创建列表列表？

如何从python中的平面列表创建列表列表

如何从 Kotlin 列表列表中的特定索引创建列表？

如何在pyspark数据框的列中创建列表

如何从 Pyspark 数据框中的列表值创建列

如何将列表列与pyspark dataframe列相交？

在单个列中创建存储为对象的列表列表

如何从 pyhton 中的 2 个相关列表列创建一列？

如何获取具有Pyspark Dataframe的另一列中给出的多个列的值的列表列？

如何在python中访问列表列表中的列

合并pySpark RDD中的列表列表

为数据框中的一列创建列表列

从python中的列表列表创建列表

如何使用客户JavaScript在表列表中创建

如何从流星中的mongo集合元素创建图表列表

创建和使用列表列表列表：在Python中

如何将RDD列表列表转换为pyspark中的一个列表

如何创建列表列表，其中子列表是每列的列值

Pyspark过滤列表列中的项目

在PySpark列的列表列表中获取第一个元素的最大值

如何从列表列表创建Pandas DataFrame？

如何用列表列表创建字典？

我如何创建列表列表

如何从数据帧创建列表列表

如何从列表列表创建嵌套字典

如何从列表列表创建新列表，其中新列表中的元素处于替代顺序？

从Python中的列表列表创建图

在C ++中创建列表列表

TOP 榜单

文章

如何从pyspark中的列创建列表列

如何从pyspark中的列创建列表列

蓝屏死机没有修复解决方案

计算数据帧中每行的NA

UITableView的项目向下滚动后更改颜色，然后快速备份

Node.js中未捕获的异常错误，发生调用

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Linux的官方Adobe Flash存储库是否已过时？

验证REST API参数

ggplot：对齐多个分面图-所有大小不同的分面

Mac OS X更新后的GRUB 2问题

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

带有错误“ where”条件的查询如何返回结果？

用日期数据透视表和日期顺序查询

VB.net将2条特定行导出到DataGridView

如何从视图一次更新多行（ASP.NET - Core）

Java Eclipse中的错误13，如何解决？

尝试反复更改屏幕上按钮的位置 - kotlin android studio

离子动态工具栏背景色

应用发明者仅从列表中选择一个随机项一次

当我尝试下载 StanfordNLP en 模型时，出现错误

python中的boto3文件上传

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID