我正在尝试逐个读取大型镶木地板文件数据集,执行一些操作,然后继续执行下一个操作,而无需将它们全部保存在内存中。我需要这样做,因为整个数据集不适合内存。以前我使用过ParquetDataset
并且我知道RecordBatchStreamReader
但我不确定如何组合它们。
我怎样才能使用 Pyarrow 来做到这一点?
目前,Parquet API 仅支持完整读取单个文件,因此我们只能以单个文件的粒度限制读取。我们想创建一个arrow::RecordBatchReader
从 Parquet 文件读取的(流数据接口)的实现,请参阅https://issues.apache.org/jira/browse/ARROW-1012。补丁将是受欢迎的。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句