了解Flink中的操作员之间的数据传输（批次）

tooobsias 发表于 Dev

17

太肥胖了

我仍在努力解决flink如何在不同运营商之间“交换/转移”数据以及运营商之间的实际数据发生什么情况。

以上面的DAG示例：执行DAG

将数据集转发/传输到GroupReduce运算符的所有并行实例，然后根据GroupReduce转换对数据进行缩减。
所有新数据都转发到Filter-> Map-> Map操作数，即，GroupReduce运算符的并行实例之一消耗的所有数据都将精确地传输到Filter-> Map-> Map运算符的一个实例（不需要进行序列化/反序列化，因此操作员访问GroupReduce操作员生成的数据）
所有GroupReduces输出数据在（Filter-> Map）运算符的所有并行实例之间进行散列并均匀分布/传输（运算符之间需要序列化/反序列化）

因此，例如，如果GroupReduce Operators输出约为100MB，它将转发100MB到（Filter-> Map-> Map）操作数，并哈希该100MB的副本并将其传输到（Filter-> Map）实例。所以我会再增加100MB的网络流量

我非常困惑，为什么在GroupReduce之后和Filter Steps之前会有如此多的网络流量。在将现在减少的数据发送给后续运算符之前，将GroupRedcue和Filter步骤链接在一起是否更好？

费利佩

该GroupReduce功能是一样的利用MapReduce编程模型的组合器。

部分计算可以显着提高GroupReduceFunction的性能。此技术也称为应用组合器。实现GroupCombineFunction接口以启用部分计算，即此GroupReduceFunction的组合器。

因此，在组合器之后，总是存在将所有上游运算符连接到所有下游运算符的混洗阶段/分区。检查此答案以澄清什么是组合器。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2021-01-26

我来说两句

0 条评论

登录后参与评论

上一篇：使用模运算符的计算差异

相关文章

操作员之间的气流和数据传输

数据集之间的数据传输

NSOperations之间的数据传输

Apache Flink中的Keyby数据分布是逻辑操作员还是物理操作员？

数据传输中的BitTorrent加密

测量OpenMPI中进程之间的数据传输

C ++和Python之间的数据传输

页面之间的Windows Phone 8数据传输

两个子组件之间的数据传输问题

未绑定组件之间的数据传输反应如何？

DataTable与Sql Server之间的数据传输

qthread和ui之间的数据传输问题？

LibTorch C++ 和 Eigen 之间的数据传输

如何加快WiFi网络中本地计算机之间的数据传输速度？

AWS中数据传输成本和带宽成本之间的差异

Azure SQL数据库中的数据传输

是否可以在两个Linux操作系统之间进行USB 3.0到USB 3.0的数据传输？

是否可以在两个Linux操作系统之间进行USB到USB的数据传输？

如何解决JS中数据传输的问题？

Haskell中数据传输记录的通用类型

数据传输对象中的公共字段

如何在TCP中启动数据传输？

通过Gstreamer中的RTSP进行数据传输

如何优化局域网中的数据传输？

在 Firebase 中禁用离线数据传输

Python 中的 Azure 数据传输 API

通过准备数据传输数据

了解Azure应用服务计划的出站数据传输

Apache FTPSClient挂起数据传输

TOP 榜单

文章

热门标签

归档