如何附加到镶木地板文件以及它如何影响分区?

阿布舍克·马利克

镶木地板是否允许定期附加到镶木地板文件?

如果有的话,追加与分区有什么关系?例如,如果我能够识别一个基数较低的列并按该列对其进行分区,如果我要向它附加更多数据,parquet 将能够在保留分区的同时自动附加数据,还是必须重新分区文件?

步伐

镶木地板是否允许定期附加到镶木地板文件?

是和否。镶木地板规范描述了一种可以通过读取现有页脚、写入行组然后写出修改后的页脚来附加到的格式。这个过程在这里稍微描述一下

当前没有镶木地板实现支持此操作。通过在内存中缓存或写入小文件并在稍后的某个时间将它们批处理在一起,通常可以接受缓存和批处理,降低复杂性,并可能获得更好的性能。

如果有的话,追加与分区有什么关系?

Parquet 没有任何分区的概念。

许多支持镶木地板的工具实现了分区。例如,pyarrow 具有支持分区数据集功能。如果您要使用此功能附加新数据,则会在适当的分区目录中创建一个新文件。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

使用pyarrow如何将其附加到镶木地板文件中?

如何正确整理由Spark Streaming生成的分区镶木地板文件

如何使用Spark(pyspark)编写镶木地板文件?

如何处理大量的镶木地板文件

如何使用 Pyspark 并行处理多个镶木地板文件?

如何使用Pyarrow更改镶木地板文件中的列名?

如何将小的镶木地板文件合并为一个大的镶木地板文件?

如何创建从Postgres的管道镶木地板?

如何加载没有分区名称(在目录名称中)的分区镶木地板数据集?

用SparkR编写分区的镶木地板文件

多个Spark作业通过分区将镶木地板数据附加到同一基本路径

如何指定将镶木地板读入 Dask 数据帧的分区数?

如何将记录从镶木地板写入另一个镶木地板?

如何将Azure数据集标记为从具有日期分区的镶木地板文件夹中读取的时间序列数据集?

如何在没有火花的情况下将hadoop avro,镶木地板以及文本文件转换为csv

如何从命令行或Spark Shell显示镶木地板文件的方案(包括类型)?

如何使用镶木地板文件源重命名AWS Athena列?

使用pyarrow读取镶木地板文件时如何解码字典列?

如何将镶木地板文件复制并转换为CSV

使用pyspark读取镶木地板文件时如何指定架构?

如何使用动态索引和类型将镶木地板文件写入弹性搜索

如何将 ndarray/多维数组转换为镶木地板文件?

如何使用 akka 流或 alpakka 从 S3 读取镶木地板文件

如何在没有Spark或框架的情况下在HDFS中保存镶木地板文件?

如何基于表中的数据获取镶木地板文件名

如何将镶木地板格式的文件加载和索引到elasticsearch?

如何在for循环中单独处理多个镶木地板文件?

如何在python中的S3中从pandas数据帧写入镶木地板文件

如何使用Spark将镶木地板文件加载到Hive表中?