Apache Flink中的全局排序

120

萨米

数据集的sortPartition方法根据一些指定的字段对数据集进行本地排序。如何在Flink中高效地对大型数据集进行全局排序？

费边·韦斯克（Fabian Hueske）

由于Flink尚未提供内置的范围分区策略，因此目前尚不容易实现。

解决方法是实现自定义Partitioner：

DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionCustom(new Partitioner<Long>() {
    int partition(Long key, int numPartitions) {
      // your implementation
    }
  }, 0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");

注意：为了使用自定义分区程序实现平衡分区，您需要了解键的值范围和分布。

目前正在对Apache Flink中的范围分区程序（带有自动采样）的支持进行中，应该很快就可以使用。

编辑（2016年6月7日）：范围分区已添加到1.0.0版的Apache Flink中。您可以按以下方式对数据集进行全局排序：

DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionByRange(0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");

请注意，范围分区对输入数据集进行采样，以计算大小相等的分区的数据分布。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-31

我来说两句

0 条评论

登录后参与评论

在Apache Flink 1.4中模拟ListState

从Apache Flink中的输入文件创建对象

Apache Flink中的并行度

Apache Flink中的重叠分区

Apache Flink Job中的多流支持

如何在Apache Flink中对数据集进行排序？

在Apache Beam中维护全局状态

在Apache Flink中运行生成的jar文件

如何覆盖Apache Flink中的配置值？

Apache Flink-启用联接排序

Apache Flink中的状态函数

如何理解Apache Flink中的setParallelism函数

Apache Flink中Join的输出

在Eclipse中编译Apache Flink示例

Apache Flink与Elasticsearch的集成

Apache Flink：ConnectedStreams中ValueState的范围

apache-flink：输出中的滑动窗口

Apache flink 数据集

Apache Flink 环境中的 AWS SDK 冲突

排序流的联合以识别 Apache Flink 中的用户会话

在 apache flink 中拆分和加入流

Akka 流与 Apache Flink

如何理解Apache Flink中的Window机制

Apache Flink 中的 connectedStreams 是如何工作的

Apache Flink 中的 ConnectedStreams 线程安全吗

Apache Flink 中的窗口和状态

Apache Flink 中帶有 TumblingWindow 的水印

Apache Flink SinkFunction 要求

Apache Flink 创建表

TOP 榜单

文章

Apache Flink中的全局排序

Apache Flink中的全局排序

Linux的官方Adobe Flash存储库是否已过时？

用日期数据透视表和日期顺序查询

应用发明者仅从列表中选择一个随机项一次

Java Eclipse中的错误13，如何解决？

在Windows 7中无法删除文件（2）

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

套接字无法检测到断开连接

带有错误“ where”条件的查询如何返回结果？

有什么解决方案可以将android设备用作Cast Receiver？

Mac OS X更新后的GRUB 2问题

ggplot：对齐多个分面图-所有大小不同的分面

验证REST API参数

如何从视图一次更新多行（ASP.NET - Core）

尝试反复更改屏幕上按钮的位置 - kotlin android studio

计算数据帧中每行的NA

检索角度选择div的当前值

离子动态工具栏背景色

UITableView的项目向下滚动后更改颜色，然后快速备份

VB.net将2条特定行导出到DataGridView

蓝屏死机没有修复解决方案

通过 Git 在运行 Jenkins 作业时获取 ClassNotFoundException