如何在Pyspark数据框中的轴= 1上连接ArrayType的2列？

I. A 发表于 Dev

一

我有以下数据框：

我想将纬度和经度连接成一个列表。其中MMSI类似于一个ID（这是唯一的）

+---------+--------------------+--------------------+
|     mmsi|                 lat|                 lon|
+---------+--------------------+--------------------+
|255801480|[47.1018366666666...|[-5.3017783333333...|
|304182000|[44.6343033333333...|[-63.564803333333...|
|304682000|[41.1936, 41.1715...|[-8.7716, -8.7514...|
|305930000|[49.5221333333333...|[-3.6310166666666...|
|306216000|[42.8185133333333...|[-29.853155, -29....|
|477514400|[47.17205, 47.165...|[-58.6317, -58.60...|

因此，我想将lat和lon数组连接起来，但在axis = 1上，也就是说，我希望在单独的列中最后有一个列表列表，例如：

[[47.1018366666666, -5.3017783333333], ... ]

在pyspark数据框中怎么可能？我已经尝试过concat，但是它将返回：

[47.1018366666666, 44.6343033333333, ..., -5.3017783333333, -63.564803333333, ...]

任何帮助深表感谢！

瓦姆西·普拉巴拉（Vamsi Prabhala）

从Spark 2.4版本开始，您可以使用内置函数arrays_zip。

from pyspark.sql.functions import arrays_zip
df.withColumn('zipped_lat_lon',arrays_zip(df.lat,df.lon)).show()

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-22

我来说两句

0 条评论

登录后参与评论

如何在 Pyspark 数据框中查询字典格式列

如何在PySpark数据框中添加变量/条件列

如何在pyspark中爆炸数据框的多列

如何在pyspark数据框中动态添加列

如何在pyspark数据框的列中创建列表

pySpark：如何在数据框中的 arrayType 列中获取 structType 中的所有元素名称？

如何在pandas数据框中跨轴1相乘？

如何在PySpark数据帧中的第0轴上找到数组的平均值（数组列）？

如何在pyspark数据框中的嵌套结构中添加列？

如何在python / pyspark数据框中的所有列中添加后缀和前缀

如何在pyspark数据框中获取列的唯一值并存储为新列

如何在Pyspark中逐元素连接两个ArrayType（StringType（））列？

如何在pyspark中创建具有两个数据框列的字典？

如何在pyspark数据框列中检测模式何时更改

如何在PySpark数据框中添加具有备用值的列？

如何在pyspark数据框中以相反的方式更改列的位置？

如何在pyspark中逐列合并几个数据框？

如何在pyspark数据框中创建具有列表值总和的列

如何在pyspark aws emr中向现有数据框添加多个列？

如何在Pyspark数据框的特定行中定位特定列？

如何在 Pyspark 数据框中创建多列的所有成对组合？

如何从matplotlib中的数据框列生成x轴值？

如何在pyspark的spark数据框中汇总多个列？

如何在Matplot的x轴上绘制dtype = datetime64 [ns]的数据框列？

如何从 pyspark 中的数据框中获取满足条件的列？

Pyspark：如何从数据框中的特定列值开始

如何从pyspark的数据框中删除空列

如何从 Pyspark 数据框中的列表值创建列

如何在pySpark数据框中添加一个新列，该列包含计数大于0的列值？

TOP 榜单

文章

如何在Pyspark数据框中的轴= 1上连接ArrayType的2列？

如何在Pyspark数据框中的轴= 1上连接ArrayType的2列？

隐藏发件人没有短信PHP

材质UI垂直滑块。如何改变在垂直材料UI滑块导轨的厚度（反应）

在Windows 7中无法删除文件（2）

HttpClient中的角度变化检测

Azure VM启动/停止日志

如何在 Vb.net 中使用函数返回多个值

Powerpoint-条形长度错误的堆积条形图

最新歌剧断断续续的快速拨号和渲染错误

Mac OS X更新后的GRUB 2问题

需要公式以vlookup逗号分隔单个单元格中的值

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

ggplot：对齐多个分面图-所有大小不同的分面

OS X-为什么我需要打开WiFi才能确定最近的位置

用日期数据透视表和日期顺序查询

Java Eclipse中的错误13，如何解决？

如何在Django中使用UUID

加载Microsoft Visual菜单时出现问题

具有if条件的SQL UPDATE

从JSON到JSONL的Python转换

如何在Kod中更改字体？

共享图像将路径放入地址