Pyspark中的JSON文件解析

Jil Jung Juk |

我是Pyspark的新手。我尝试使用以下代码解析JSON文件

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.json("file:///home/malwarehunter/Downloads/122116-path.json")
df.printSchema()

输出如下。

根|-_corrupt_record：字符串（可为空= true）

df.show()

输出看起来像这样

+--------------------+
|     _corrupt_record|
+--------------------+
|                   {|
|  "time1":"2...|
|  "time2":"201...|
|    "step":0.5,|
|          "xyz":[|
|                   {|
|      "student":"00010...|
|      "attr...|
|        [ -2.52, ...|
|        [ -2.3, -...|
|        [ -1.97, ...|
|        [ -1.27, ...|
|        [ -1.03, ...|
|        [ -0.8, -...|
|        [ -0.13, ...|
|        [ 0.09, -...|
|        [ 0.54, -...|
|        [  1.1, -...|
|        [ 1.34, 0...|
|        [ 1.64, 0...|
+--------------------+
only showing top 20 rows

Json文件看起来像这样。

{
  "time1":"2016-12-16T00:00:00.000",

  "time2":"2016-12-16T23:59:59.000",

  "step":0.5,

   "xyz":[

    {
     "student":"0001025D0007F5DB",
      "attr":[
    [ -2.52, -1.17 ],
    [ -2.3, -1.15 ],
    [ -1.97, -1.19 ],
    [ 10.16, 4.08 ],
    [ 10.23, 4.87 ],
    [ 9.96, 5.09 ] ]
},
{
  "student":"0001025D0007F5DC",
  "attr":[
    [ -2.58, -0.99 ],
    [ 10.12, 3.89 ],
    [ 10.27, 4.59 ],
    [ 10.05, 5.02 ] ]
}
]}

您能帮我解析一下并创建这样的数据框吗？

零323

火花> = 2.2：

您可以将multiLine参数用于JSON阅读器：

spark.read.json(path_to_input, multiLine=True)

火花<2.2

几乎有通用但相当昂贵的解决方案，可用于读取多行JSON文件：

使用读取数据SparkContex.wholeTextFiles。
放下键（文件名）。
将结果传递给DataFrameReader.json。

只要您的数据没有其他问题，就可以解决问题：

spark.read.json(sc.wholeTextFiles(path_to_input).values())

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-4

我来说两句

0 条评论

登录后参与评论

上一篇：等待Android模拟器运行，然后执行下一个Shell命令？

加速pyspark解析大型嵌套json文件

在pyspark中读取json文件

在 PySpark 中如何解析嵌入的 JSON

解析JSON文件中的数据

在 Ansible 中解析 JSON 文件

从go中的文件解析json

在golang中解析json文件

在Go中解析JSON文件

在 nodejs 中解析 JSON 文件

在Scala中解析JSON文件

从 JSON 文件中解析 html

在JAVA中解析json文件

在PySpark中爆炸整个JSON文件

在pyspark中读取嵌套的JSON文件

Pyspark - 从 json 文件中获取属性名称

使用Spark内置函数或方法在Pyspark中解析csv文件

无法解析JSON文件中的TAB

如何从iOS中的文件解析JSON？

在UICollectionView中解析本地JSON文件

解析JSON文件中的可翻译消息

解析 Xamarin 表单中的嵌套 JSon 文件

解析使用GSON Java中的JSON文件

在U-SQL中解析json文件

在颤振中解析 JSON 文件

在Java中解析json文件内容

无法解析JSON文件中的值

无法在golang中解析此json文件

无法在Go中解析json文件

在php中解析巨大的json文件

TOP 榜单

文章

Pyspark中的JSON文件解析

Pyspark中的JSON文件解析

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用