Apache Flink-增量检查点-CP的意外大小

118

tmk.dudek

尽管在RocksDb中使用了增量检查点，但在处理过程中添加了一些托管状态后，我们发现检查点的大小和持续时间令人担忧地增长。

为了隔离问题，我们使用源，地图运算符和接收器创建了简单的拓扑。

源在内存中创建任意数量的事件，每秒吞吐量为1个事件。每个事件都有一个唯一的ID，该ID用于对流进行分区（使用keyBy运算符），并通过map函数将大约100kB的值添加到托管状态（使用ValueState）。然后将事件简单地传递到不执行任何操作的接收器。

使用上述设置，我们已发送了1200个事件，检查点间隔时间和最小暂停时间设置为5秒。由于事件以恒定的速度和相等的状态出现，因此我们期望检查点的大小或多或少是恒定的。但是，我们观察到检查点大小呈线性增长的峰值（最后一个峰值接近120MB，接近整个预期管理状态的大小），并且中间存在小的检查点。为了进行监控，我们使用了Flink和Prometheus与Grafana一起公开的指标，请参阅以下内容：检查点图表

我们想了解为什么我们会观察到CP峰值，为什么它们会持续增长？

是什么原因导致某些CP节省了预期的大小（大约500kB），而有些CP的大小大约是整个当前受管状态的大小，即使负载是恒定的？

使用增量检查点时，lastCheckpointSize度量标准精确测量了什么？

任何提示，解释将不胜感激，

提前致谢。

大卫·安德森

Flink的增量检查点需要（1）很好地扩展到非常大的状态，并且（2）允许从检查点进行还原是相当有效的，即使一次运行数周或数月后执行了数百万个检查点也是如此。特别是，有必要定期合并/合并较旧的检查点，以免最终无法尝试从无限制的检查点链中恢复到遥远的过去。这就是为什么即使在恒定负载下，您也会看到一些检查点比其他检查点做更多工作的原因。还要注意，在少量状态下进行测试（与某些Flink用户报告使用的10 TB以上的状态相比，120 MB很小，这种效果更明显）。

为了更详细地了解Flink的增量检查点的工作原理，建议您观看Flink Forward上Stefan Richter的演讲。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-12-13

我来说两句

0 条评论

登录后参与评论

上一篇：如何缩小TFS 2017快速增长的tbl_content表

TOP 榜单

文章

Apache Flink-增量检查点-CP的意外大小

Apache Flink-增量检查点-CP的意外大小

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序