阿布舍克·马利克
镶木地板是否允许定期附加到镶木地板文件?
如果有的话,追加与分区有什么关系?例如,如果我能够识别一个基数较低的列并按该列对其进行分区,如果我要向它附加更多数据,parquet 将能够在保留分区的同时自动附加数据,还是必须重新分区文件?
步伐
镶木地板是否允许定期附加到镶木地板文件?
是和否。镶木地板规范描述了一种可以通过读取现有页脚、写入行组然后写出修改后的页脚来附加到的格式。这个过程在这里稍微描述一下。
当前没有镶木地板实现支持此操作。通过在内存中缓存或写入小文件并在稍后的某个时间将它们批处理在一起,通常可以接受缓存和批处理,降低复杂性,并可能获得更好的性能。
如果有的话,追加与分区有什么关系?
Parquet 没有任何分区的概念。
许多支持镶木地板的工具实现了分区。例如,pyarrow 具有支持分区的数据集功能。如果您要使用此功能附加新数据,则会在适当的分区目录中创建一个新文件。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
编辑于
我来说两句