如何使用Spark读取Spark编写的文件?

李van

当Spark将日期框架数据写入镶木地板文件时,Spark将创建一个包含几个单独的镶木地板文件的目录。保存代码:

term_freq_df.write
            .mode("overwrite")
            .option("header", "true")
            .parquet("dir/to/save/to")

我需要使用熊猫从该目录读取数据:

term_freq_df = pd.read_parquet("dir/to/save/to") 

错误:

IsADirectoryError: [Errno 21] Is a directory: 

如何使用两个代码示例可以使用相同文件路径的简单方法解决此问题?

ido堂

如您所述,保存时,Spark将在一个目录中创建多个实木复合地板文件。要使用pandas读取这些文件,您可以做的是分别读取文件,然后合并结果。

import glob
import os
import pandas as pd

path = "dir/to/save/to"
parquet_files = glob.glob(os.path.join(path, "*.parquet"))
df = pd.concat((pd.read_parquet(f) for f in parquet_files))

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章