如何使用Spark读取Spark编写的文件？

李van

当Spark将日期框架数据写入镶木地板文件时，Spark将创建一个包含几个单独的镶木地板文件的目录。保存代码：

term_freq_df.write
            .mode("overwrite")
            .option("header", "true")
            .parquet("dir/to/save/to")

我需要使用熊猫从该目录读取数据：

term_freq_df = pd.read_parquet("dir/to/save/to")

错误：

IsADirectoryError: [Errno 21] Is a directory:

如何使用两个代码示例可以使用相同文件路径的简单方法解决此问题？

ido堂

如您所述，保存时，Spark将在一个目录中创建多个实木复合地板文件。要使用pandas读取这些文件，您可以做的是分别读取文件，然后合并结果。

import glob
import os
import pandas as pd

path = "dir/to/save/to"
parquet_files = glob.glob(os.path.join(path, "*.parquet"))
df = pd.concat((pd.read_parquet(f) for f in parquet_files))

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-20

我来说两句

0 条评论

登录后参与评论

上一篇：R或Python中是否有功能/工作流程来绘制每个位置的字符以进行单词比较？

如何使用Spark（pyspark）编写镶木地板文件？

使用Spark读取巨大的CSV文件

从Scala读取Parquet文件而不使用Spark

Spark：如何从Spark Shell运行Spark文件

在Spark中读取Avro文件

如何使用Spark从HBase读取

无法使用Spark从HDFS读取文件

如何使用Spark从目录递归读取Hadoop文件？

如何使用Scala在Spark中读取json文件？

如何使用Spark DF或DS读取“ .gz”压缩文件？

Spark SQL如何读取Parquet分区文件

如何使用Spark和Spray Json读取json文件并将其转换为case类

如何使用spark-avro包从spark-shell读取avro文件？

如何读取XML文件Azure Databricks Spark

如何使用Scala从Spark读取Blob存储中的文件

如何使用包含多个名称空间的spark读取XML文件？

Spark读取Avro文件

如何使用Spark从HDFS读取文件？

如何使用spark（scala）读取和写入（更新）同一文件

如何判断Spark使用什么AWS凭证读取S3文件？

如何使用wholeTextFiles在Spark中读取gz文件

如何使用Spark Streaming从序列文件中读取数据

Scala用Spark读取文件

如何使用Spark快速从map（）中的HDFS中读取文件

SPARK读取SEQUENCE文件

如何通过使用 Spark 将 Cassandra 的表作为输入来编写 csv 文件？

在 Windows 10 上，如何使用 Apache Spark 从 Azure Blob 读取文件而没有 Databricks 但使用 wasbs？

如何使用 Spark 读取 Hive 表

使用 spark(Scala) 从 hdfs 读取文件

TOP 榜单

文章

如何使用Spark读取Spark编写的文件？

如何使用Spark读取Spark编写的文件？

Linux的官方Adobe Flash存储库是否已过时？

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

如何检查字符串输入的格式

如何使用HttpClient的在使用SSL证书，无论多么“糟糕”是

Modbus Python施耐德PM5300

错误TS2365：运算符'！=='无法应用于类型'“（”'和'“）”'

用日期数据透视表和日期顺序查询

检查嵌套列表中的长度是否相同

Java Eclipse中的错误13，如何解决？

ValueError：尝试同时迭代两个列表时，解包的值太多（预期为 2）

如何监视应用程序而不是单个进程的CPU使用率？

如何自动选择正确的键盘布局？-仅具有一个键盘布局

ES5的代理替代

在令牌内联程序集错误之前预期为 ')'

有什么解决方案可以将android设备用作Cast Receiver？

套接字无法检测到断开连接

如何在JavaScript中获取数组的第n个元素？

如何将sklearn.naive_bayes与（多个）分类功能一起使用？

应用发明者仅从列表中选择一个随机项一次

在Windows 7中无法删除文件（2）

ggplot：对齐多个分面图-所有大小不同的分面