在 PysparkSQL 中分解 JSON

皮坤95

我希望將嵌套的 json 分解為 CSV 文件。希望將嵌套的 json 解析為行和列。

from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql import functions as F
from pyspark.sql import Row
df=spark.read.option("multiline","true").json("sample1.json")
df.printSchema()

root
 |-- pid: struct (nullable = true)
 |    |-- Body: struct (nullable = true)
 |    |    |-- Vendor: struct (nullable = true)
 |    |    |    |-- RC: struct (nullable = true)
 |    |    |    |    |-- Updated_From_Date: string (nullable = true)
 |    |    |    |    |-- Updated_To_Date: string (nullable = true)
 |    |    |    |-- RD: struct (nullable = true)
 |    |    |    |    |-- Supplier: struct (nullable = true)
 |    |    |    |    |    |-- Supplier_Data: struct (nullable = true)
 |    |    |    |    |    |    |-- Days: long (nullable = true)
 |    |    |    |    |    |    |-- Reference: struct (nullable = true)
 |    |    |    |    |    |    |    |-- ID: array (nullable = true)
 |    |    |    |    |    |    |    |    |-- element: string (containsNull = true)
 |    |    |    |    |    |    |-- Expected: long (nullable = true)
 |    |    |    |    |    |    |-- Payments: long (nullable = true)
 |    |    |    |    |    |    |-- Approval: struct (nullable = true)
 |    |    |    |    |    |    |    |-- ID: array (nullable = true)
 |    |    |    |    |    |    |    |    |-- element: string (containsNull = true)
 |    |    |    |    |    |    |-- Areas_Changed: struct (nullable = true)
 |    |    |    |    |    |    |    |-- Alternate_Names: long (nullable = true)
 |    |    |    |    |    |    |    |-- Attachments: long (nullable = true)
 |    |    |    |    |    |    |    |-- Classifications: long (nullable = true)
 |    |    |    |    |    |    |    |-- Contact_Information: long (nullable = true)

我的代碼：

df2=(df.select(F.explode("pid").alias('pid'))
         .select('pid.*')
         .select(F.explode('Body').alias('Body'))
         .select('Body.*')
         .select((F.explode('Vendor').alias('Vendor'))
         .select('Vendor.*')
         .select((F.explode('RC').alias('RC'))
         .select('RC.*'))))

錯誤：AnalysisException：由於數據類型不匹配而無法解析“explode(pid)”：函數explode的輸入應該是數組或映射類型，而不是struct<Body:struct< .....

如何解析為結構字段。任何幫助都感激不盡：）

不列顛哥倫比亞省莫哈納

您explode只能在地圖或數組類型上使用函數。要訪問 strcut 類型，只需使用.運算符。

假設您想在 RC 和 RD 下獲取列，則代碼語法應如下所示。

df.select("pid.Body.Vendor.RC.*", "pid.Body.Vendor.RD.*")

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-11-21

我来说两句

0 条评论

登录后参与评论

上一篇：為什麼我的 Java Instance Initializers 初始化兩次？

在Java中分解，何时足够？

在Spark中分解结构列时出错

如何在numpy数组中分解模式？

如何在RSpec中分解超长规格？

在Dynamics CRM中分解日期

在EF Core中分解结构？

在Scala中分解函数

在列中分解MySQL字符串

在pyspark中分解Maptype列

在python中分解

Gzip分块数据在C ++中分解

在SQL中分解位掩码

在MongoDB聚合管道中分解数组

如何在Sympy中分解平方项

在pysparksql中爆炸Json

在R中分解多个Google表单条目

在python中分解列表理解

如何在JComboBox中分解单个值？

在多个数组中分解JSON响应

如何在Coldfusion中分解出未格式化的json

在JavaScript中分解数字

在IQueryable中分解WHERE子句

在 Vue 中分解自定义按钮

使用 Pandas 从 csv 文件中分解列

在 C 中分解数字加法

在 Pandas 中分解和解压列

如何在CSharp中分解包含json数组的字符串

在 PySpark 中分解 JSON 中不存在的密钥

在 SQL Server 中分解 XML 文档

TOP 榜单

文章

在 PysparkSQL 中分解 JSON

在 PysparkSQL 中分解 JSON

Linux的官方Adobe Flash存储库是否已过时？

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

错误：“ javac”未被识别为内部或外部命令，

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

Modbus Python施耐德PM5300

为什么Object.hashCode（）不遵循Java代码约定

如何检查字符串输入的格式

检查嵌套列表中的长度是否相同

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

如何自动选择正确的键盘布局？-仅具有一个键盘布局

如何正确比较 scala.xml 节点？

在令牌内联程序集错误之前预期为 ')'

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

解决类Koin的实例时出错

ES5的代理替代

有什么解决方案可以将android设备用作Cast Receiver？

VBA 自动化错误：-2147221080 (800401a8)

套接字无法检测到断开连接