如何使用 pyarrow 流式处理镶木地板?

架构

我正在尝试逐个读取大型镶木地板文件数据集,执行一些操作,然后继续执行下一个操作,而无需将它们全部保存在内存中。我需要这样做,因为整个数据集不适合内存。以前我使用过ParquetDataset并且我知道RecordBatchStreamReader但我不确定如何组合它们。

我怎样才能使用 Pyarrow 来做到这一点?

韦斯·麦金尼

目前,Parquet API 仅支持完整读取单个文件,因此我们只能以单个文件的粒度限制读取。我们想创建一个arrow::RecordBatchReader从 Parquet 文件读取(流数据接口)的实现,请参阅https://issues.apache.org/jira/browse/ARROW-1012补丁将是受欢迎的。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何使用Pyarrow更改镶木地板文件中的列名?

使用pyarrow如何将其附加到镶木地板文件中?

使用pyarrow读取镶木地板文件时如何解码字典列?

使用pyarrow从分区的镶木地板数据集中读取特定的分区

PyArrow:使用嵌套类型在镶木地板中存储字典列表

如何使用 Pyspark 并行处理多个镶木地板文件?

使用 PyArrow 从多个文件中读取分区的镶木地板数据集,并根据文件名添加分区键

如何处理大量的镶木地板文件

带有镶木地板和 pyarrow 的 http 请求

如何创建从Postgres的管道镶木地板?

从Spark写入镶木地板时如何处理空值

如何在Apache Spark中处理更改镶木地板架构

如何在for循环中单独处理多个镶木地板文件?

加载索引具有冗余列的镶木地板文件时出现 pyarrow 问题

如何将记录从镶木地板写入另一个镶木地板?

使用镶木地板工具打开镶木地板文件时出错

如何使用Spark(pyspark)编写镶木地板文件?

使用Pyarrow压缩/合并拼花地板文件?

如何阅读箭头镶木地板键值元数据?

Sparklyr-如何更改镶木地板数据类型

如何连接两个镶木地板数据集?

我如何阅读 java 中的镶木地板词典

如何从Amazon Athena查询镶木地板数据?

使用 fastparquet 在子文件上划分镶木地板文件

复制镶木地板文件,然后使用 Athena 查询它们

使用通配符通过火花读取镶木地板文件

使用C#序列化镶木地板数据

使用镶木地板格式时是否保存了DataFrame模式?

使用 pyspark 迭代加载多个镶木地板文件