如何将printSchema的结果保存到PySpark中的文件

Ahito 发表于 Dev

ito人

我df.printSchema()在pyspark中使用过，它为我提供了具有树状结构的架构。现在，我需要将其保存在变量或文本文件中。

我尝试了以下保存方法，但是它们没有用。

v = str(df.printSchema())  
print(v) 
#and
df.printSchema().saveAsTextFile(<path>)

我需要以下格式的保存模式

|-- COVERSHEET: struct (nullable = true)                              
 |    |-- ADDRESSES: struct (nullable = true)
 |    |    |-- ADDRESS: struct (nullable = true)
 |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |    |-- _city: string (nullable = true)
 |    |    |    |-- _primary: long (nullable = true)
 |    |    |    |-- _state: string (nullable = true)
 |    |    |    |-- _street: string (nullable = true)
 |    |    |    |-- _type: string (nullable = true)
 |    |    |    |-- _zip: long (nullable = true)
 |    |-- CONTACTS: struct (nullable = true)
 |    |    |-- CONTACT: array (nullable = true)
 |    |    |    |-- element: struct (containsNull = true)
 |    |    |    |    |-- _VALUE: string (nullable = true)
 |    |    |    |    |-- _name: string (nullable = true)
 |    |    |    |    |-- _type: string (nullable = true)

vert

您需要treeString（由于某种原因，我在python API中找不到）

#v will be a string
v = df._jdf.schema().treeString()

您可以将其转换为RDD并使用 saveAsTextFile

sc.parallelize([v]).saveAsTextFile(...)

或使用特定于Python的API将字符串写入文件。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-11-23

我来说两句

0 条评论

登录后参与评论

将 printSchema() 函数的结果保存到 Pyspark 中的变量？

如何将结果保存到文件中？

如何将javascript的结果保存到gulp中的文件

如何将列表中的结果保存到.txt文件？

如何将输出结果保存到文件中

如何将结果保存到Excel文件或csv文件？

如何将SQL查询的结果保存到html文件？

如何将黄瓜测试结果保存到文件

如何将 R 中的结果保存到 excel 文件中

如何将查询结果保存到mysql中具有列名的excel文件中

如何将实时预测结果保存到 csv 文件中？

如何将R中的t.test结果保存到txt文件？

如何将FP-Growth模型FrequentItemSet结果保存到文本文件中？

如何将printf的结果保存到GDB中的变量？

如何将删除结果保存到mysql中的变量？

如何将查询结果转换/保存到表中

如何将模板文字的结果保存到对象中？

如何将双层图像保存到Julia中的文件？

如何将哈希集保存到Android中的文件？

如何将slurm命令的输出保存到文件中？

如何将数据保存到 JSON 文件中

Apache Lucene：如何将索引保存到文件中？

如何将Keras模型进度保存到文件中？

如何将Seaborn图保存到文件中

如何将多维数组保存到文件或MySQL中

如何将字典列表保存到文件中？

如何将RDP凭证保存到文件中？

如何将StringIO（pdf）数据保存到文件中

如何将JSON文件保存到csv中

TOP 榜单

文章

如何将printSchema的结果保存到PySpark中的文件

如何将printSchema的结果保存到PySpark中的文件

Qt Creator Windows 10 - “使用 jom 而不是 nmake”不起作用

使用next.js时出现服务器错误，错误：找不到react-redux上下文值；请确保组件包装在<Provider>中

SQL Server中的非确定性数据类型

Swift 2.1-对单个单元格使用UITableView

如何避免每次重新编译所有文件？

在同一Pushwoosh应用程序上Pushwoosh多个捆绑ID

Hashchange事件侦听器在将事件处理程序附加到事件之前进行侦听

应用发明者仅从列表中选择一个随机项一次

在 Avalonia 中是否有带有柱子的 TreeView 或类似的东西？

HttpClient中的角度变化检测

在Wagtail管理员中，如何禁用图像和文档的摘要项？

如何了解DFT结果

Camunda-根据分配的组过滤任务列表

错误：找不到存根。请确保已调用spring-cloud-contract：convert

为什么此后台线程中未处理的异常不会终止我的进程？

构建类似于Jarvis的本地语言应用程序

使用分隔符将成对相邻的数组元素相互连接

您如何通过 Nativescript 中的 Fetch 发出发布请求？

通过iwd从Linux系统上的命令行连接到wifi（适用于Linux的无线守护程序）

使用React / Javascript在Wordpress API中通过ID获取选择的多个帖子/页面

使用 text() 獲取特定文本節點的 XPath