如何配置检查点以重新部署Spark Streaming应用程序？

王斌|

我正在使用Spark流计算唯一用户。我使用updateStateByKey，所以我需要配置一个检查点目录。在启动应用程序时，我还从检查点加载了数据，如doc中的示例所示：

// Function to create and setup a new StreamingContext
def functionToCreateContext(): StreamingContext = {
    val ssc = new StreamingContext(...)   // new context
    val lines = ssc.socketTextStream(...) // create DStreams
    ...
    ssc.checkpoint(checkpointDirectory)   // set checkpoint directory
    ssc
}

// Get StreamingContext from checkpoint data or create a new one
val context = StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)

这里的问题是，如果更改了我的代码，那么我将重新部署该代码，无论更改了多少代码，都会加载检查点吗？或者，我需要使用自己的逻辑来持久化数据并在下一次运行中加载它们。

如果我使用自己的逻辑来保存和加载DStream，那么如果应用程序在失败时重新启动，那么从检查点目录和我自己的数据库中加载的数据都不会吗？

宣惠范

该检查点本身包括您的元数据，rdd，dag甚至您的逻辑。如果您更改逻辑并尝试从最后一个检查点运行它，则很有可能会遇到异常。如果要使用自己的逻辑将数据保存为检查点的某个位置，则可能需要执行spark操作以将检查点数据推送到任何数据库，在下一次运行中，将检查点数据作为初始RDD加载（以防正在使用updateStateByKey API）并继续您的逻辑。

本文收集自互联网，转载请注明来源。

如有侵权，请联系 [email protected] 删除。

编辑于 2020-10-30

我来说两句

0 条评论

登录后参与评论

重新部署应用程序时，Bouncycastle无法加载

重新启动Spark Streaming应用程序的最佳方法是什么？

如何使用RDD检查点在Spark应用程序之间共享数据集？

Spark Streaming Cleaning RDD检查点目录

如何从Dataproc上的检查点重新启动Spark Streaming作业？

从spark-shell（pyspark）查询Spark Streaming应用程序

如何配置检查点以重新部署Spark Streaming应用程序？

如何配置检查点以重新部署Spark Streaming应用程序？

Android Studio Kotlin：提取为常量

IE 11中的FormData未定义

计算数据帧R中的字符串频率

如何在R中转置数据

如何使用Redux-Toolkit重置Redux Store

Excel 2016图表将增长与4个参数进行比较

在 Python 2.7 中。如何从文件中读取特定文本并分配给变量

未捕获的SyntaxError：带有Ajax帖子的意外令牌u

OpenCv：改变 putText() 的位置

ActiveModelSerializer仅显示关联的ID

算术中的c ++常量类型转换

如何开始为Ubuntu开发

将加号/减号添加到jQuery菜单

去噪自动编码器和常规自动编码器有什么区别？

获取并汇总所有关联的数据

OpenGL纹理格式的颜色错误

在 React Native Expo 中使用 react-redux 更改另一个键的值

http：// localhost：3000 /＃！/为什么我在localhost链接中得到“＃！/”。

TreeMap中的自定义排序

Redux动作正常，但减速器无效

如何对treeView的子节点进行排序