如何在没有Spark的情况下从本地文件系统(例如python,某些库等)将Parquet转换为CSV?(试图找到尽可能简单和极简的解决方案,因为需要使所有内容自动化并且没有太多资源)。
我parquet-tools
在Mac上尝试了例如,但数据输出看起来不正确。
需要进行输出,以便当某些列中不存在数据时-CSV将具有对应的NULL(2个逗号之间的空列)。
谢谢。
您可以通过使用Python包pandas
和pyarrow
(这pyarrow
是pandas
此功能所需的可选依赖项)来实现。
import pandas as pd
df = pd.read_parquet('filename.parquet')
df.to_csv('filename.csv')
当您需要修改文件中的内容时,可以对进行标准pandas
操作df
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句