如何限制Spark作业失败的重试次数?

jk-kim:

我们正在通过运行一个Spark作业spark-submit,我可以看到在失败的情况下该作业将被重新提交。

在纱线容器出现故障或发生任何异常情况时,如何阻止尝试#2?

在此处输入图片说明

发生这种情况是由于内存不足和“超出了GC开销限制”问题。

Jacek Laskowski:

有两个设置可控制重试次数(即,ApplicationMaster尝试使用YARN 进行注册的最大次数失败,因此将整个Spark应用程序视为失败):

  • spark.yarn.maxAppAttempts-Spark的设置。参见MAX_APP_ATTEMPTS

      private[spark] val MAX_APP_ATTEMPTS = ConfigBuilder("spark.yarn.maxAppAttempts")
        .doc("Maximum number of AM attempts before failing the app.")
        .intConf
        .createOptional
    
  • yarn.resourcemanager.am.max-attempts -YARN自己的设置,默认为2。

(如您在YarnRMClient.getMaxRegAttempts中所看到的),实际数字是YARN和Spark的配置设置的最小值,而YARN是最后的选择。

本文收集自互联网,转载请注明来源。

如有侵权,请联系 [email protected] 删除。

编辑于
0

我来说两句

0 条评论
登录 后参与评论

相关文章

如何限制重试次数?

如何控制Spark作业提交的Hadoop IPC重试次数?

如何限制JMS DefaultMessageListenerContainer重试消息的次数?

如何使用ActiveJob和Sidekiq限制失败的作业重试计数器?

带有hls插件的videojs:如何限制重试次数

验证方的限制重试次数

Kubernetes作业和退避限制值:该值是重试次数还是分钟数?

重试一定次数后如何使(cron)工作失败?

Azure Web 作业/函数重试次数

如何修改/检查谷歌云运行失败的重试限制?

Azure Spark 如何配置应用程序重试限制

FirebaseJob调度程序:如何使用RETRY_POLICY_EXPONENTIAL指定作业中的重试次数

Apache Spark作业立即失败,没有重试,设置maxFailures不起作用

重试github操作中失败的作业

如何重试失败的动作?

如何重试失败的测试?

第一次尝试后,触发远程参数化作业失败,并超出重试限制-提到CSRF

如何限制重试时计数

RunDeck:重试失败的作业,但只针对那些失败的节点

Spark-如何通过“ SparkLauncher”识别失败的作业

如何限制并行作业

Amazon SQS如何控制重试次数

如何重试失败的网络请求

失败之前,Firebase事务的最大重试次数是多少

如何检查延迟的作业是否真的在重试

Laravel-重试特定队列上的失败作业

如何限制API调用次数?

有可能吗?如果总是失败,如何限制kubernetes作业以创建最大数量的Pod?

从具有重试详细信息(ID和重试计数)的表中检索失败的作业