在pyspark中分解Maptype列

哈迪克·古普塔

我有一个这样的数据框

data = [(("ID1", {'A': 1, 'B': 2}))]
df = spark.createDataFrame(data, ["ID", "Coll"])
df.show()

+---+----------------+
| ID|            Coll|
+---+----------------+
|ID1|[A -> 1, B -> 2]|
+---+----------------+

df.printSchema()
root
 |-- ID: string (nullable = true)
 |-- Coll: map (nullable = true)
 |    |-- key: string
 |    |-- value: long (valueContainsNull = true)

我想爆炸“ Coll”列，这样

+---+-----------+
| ID| Key| Value|
+---+-----------+
|ID1|   A|     1|
|ID1|   B|     2| 
+---+-----------+

我正在尝试在pyspark中做到这一点

如果我只使用一列，我会成功，但是我也想要ID列

df.select(explode("Coll").alias("x", "y")).show()

+---+---+
|  x|  y|
+---+---+
|  A|  1|
|  B|  2|
+---+---+

ido堂

只需将ID列添加到中select，它就可以正常工作：

df.select("id", explode("Coll").alias("x", "y"))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-31

我来说两句

0 条评论

登录后参与评论

上一篇：如何从XMonad中的所有浮动窗口中删除边框

pyspark：从现有列创建MapType列

在pyspark中展平Maptype列

PySpark Dataframe.groupBy MapType列

使用 Pandas 从 csv 文件中分解列

在Spark中分解结构列时出错

在列中分解MySQL字符串

在 Pandas 中分解和解压列

在 PySpark 中分解 JSON 中不存在的密钥

从 UDF PySpark 中的 MapType 列中选择值

PySpark MapType 從列值到列名數組

MapType 列值上的 PySpark 槓桿函數

Pyspark：MapType列上的isin（）

在熊猫中分解一列字符串

在 spark 中分解多个数组列以更改输入模式

PySpark：如何分解两列数组

分解表以透视列（SQL，PYSPARK）

pyspark：将结构分解为列

在Scala中分解函数

在python中分解

在 PysparkSQL 中分解 JSON

如何从列获取MapType

Pyspark：将列中的json分解为多列

PySpark - 根据列的类型将列分解为行

在Java中分解，何时足够？

在SQL中分解位掩码

在EF Core中分解结构？

在Dynamics CRM中分解日期

在python中分解列表理解

在JavaScript中分解数字

TOP 榜单

文章

在pyspark中分解Maptype列

在pyspark中分解Maptype列

构建类似于Jarvis的本地语言应用程序

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

SQL Server中的非确定性数据类型

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

Swift 2.1-对单个单元格使用UITableView

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

HttpClient中的角度变化检测

如何了解DFT结果

错误：找不到存根。请确保已调用spring-cloud-contract：convert

Embers js中的更改侦听器上的组合框

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何避免每次重新编译所有文件？

Java中的循环开关案例

ng升级性能注意事项

Swift中的指针替代品？

如何使用geoChoroplethChart和dc.js在Mapchart的路径上添加标签或自定义值？

使用分隔符将成对相邻的数组元素相互连接

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

ggplot：对齐多个分面图-所有大小不同的分面

完全禁用暂停（在内核级别？-必须与使用的DE和登录状态无关！）