Flink的Dataset API中有各种分区功能,例如partitionByHash
和partitionByRange
。
我想首先了解什么是分区,groupBy
以及分区之间的区别。
分区是比其更底层的操作groupBy
,并且不对数据应用任何功能。而是定义如何在并行任务实例之间分配数据。可以使用不同的方法对数据进行分区,例如哈希分区或范围分区。
groupBy
本身不是一项操作。它总是需要被所分组的应用的功能DataSet
,例如reduce
,groupReduce
,或groupCombine
。该groupBy
API定义了如何给他们到相应的函数之前的记录进行分组。记录分组分为两个步骤。
因此,第一步groupBy
是分区。
本文收集自互联网,转载请注明来源。
如有侵权,请联系 [email protected] 删除。
我来说两句