如何附加到镶木地板文件以及它如何影响分区？

Abhishek Malik 发表于 Dev

阿布舍克·马利克

镶木地板是否允许定期附加到镶木地板文件？

如果有的话，追加与分区有什么关系？例如，如果我能够识别一个基数较低的列并按该列对其进行分区，如果我要向它附加更多数据，parquet 将能够在保留分区的同时自动附加数据，还是必须重新分区文件？

步伐

镶木地板是否允许定期附加到镶木地板文件？

是和否。镶木地板规范描述了一种可以通过读取现有页脚、写入行组然后写出修改后的页脚来附加到的格式。这个过程在这里稍微描述一下。

当前没有镶木地板实现支持此操作。通过在内存中缓存或写入小文件并在稍后的某个时间将它们批处理在一起，通常可以接受缓存和批处理，降低复杂性，并可能获得更好的性能。

如果有的话，追加与分区有什么关系？

Parquet 没有任何分区的概念。

许多支持镶木地板的工具实现了分区。例如，pyarrow 具有支持分区的数据集功能。如果您要使用此功能附加新数据，则会在适当的分区目录中创建一个新文件。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-09-15

我来说两句

0 条评论

登录后参与评论

上一篇：Svelte 中不相关组件之间的实时数据共享

使用pyarrow如何将其附加到镶木地板文件中？

如何正确整理由Spark Streaming生成的分区镶木地板文件

如何使用Spark（pyspark）编写镶木地板文件？

如何处理大量的镶木地板文件

如何使用 Pyspark 并行处理多个镶木地板文件？

如何使用Pyarrow更改镶木地板文件中的列名？

如何将小的镶木地板文件合并为一个大的镶木地板文件？

如何创建从Postgres的管道镶木地板？

如何加载没有分区名称（在目录名称中）的分区镶木地板数据集？

用SparkR编写分区的镶木地板文件

多个Spark作业通过分区将镶木地板数据附加到同一基本路径

如何指定将镶木地板读入 Dask 数据帧的分区数？

如何将记录从镶木地板写入另一个镶木地板？

如何将Azure数据集标记为从具有日期分区的镶木地板文件夹中读取的时间序列数据集？

如何在没有火花的情况下将hadoop avro，镶木地板以及文本文件转换为csv

如何从命令行或Spark Shell显示镶木地板文件的方案（包括类型）？

如何使用镶木地板文件源重命名AWS Athena列？

使用pyarrow读取镶木地板文件时如何解码字典列？

如何将镶木地板文件复制并转换为CSV

使用pyspark读取镶木地板文件时如何指定架构？

如何使用动态索引和类型将镶木地板文件写入弹性搜索

如何将 ndarray/多维数组转换为镶木地板文件？

如何使用 akka 流或 alpakka 从 S3 读取镶木地板文件

如何在没有Spark或框架的情况下在HDFS中保存镶木地板文件？

如何基于表中的数据获取镶木地板文件名

如何将镶木地板格式的文件加载和索引到elasticsearch？

如何在for循环中单独处理多个镶木地板文件？

如何在python中的S3中从pandas数据帧写入镶木地板文件

如何使用Spark将镶木地板文件加载到Hive表中？

TOP 榜单

文章

如何附加到镶木地板文件以及它如何影响分区？

如何附加到镶木地板文件以及它如何影响分区？

UITableView的项目向下滚动后更改颜色，然后快速备份

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Mac OS X更新后的GRUB 2问题

验证REST API参数

Java Eclipse中的错误13，如何解决？

带有错误“ where”条件的查询如何返回结果？

ggplot：对齐多个分面图-所有大小不同的分面

尝试反复更改屏幕上按钮的位置 - kotlin android studio

如何从视图一次更新多行（ASP.NET - Core）

计算数据帧中每行的NA

蓝屏死机没有修复解决方案

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

离子动态工具栏背景色

VB.net将2条特定行导出到DataGridView

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException

在Windows 7中无法删除文件（2）

python中的boto3文件上传

当我尝试下载 StanfordNLP en 模型时，出现错误

Node.js中未捕获的异常错误，发生调用