当前位置: 首页 > news >正文

spark3.0源码分析-driver-executor心跳机制

前言

driver和executor心跳机制分为两种机制:
1、executor发送心跳机制
2、driver接受心跳机制

至于为何要分为两种,原因是在分布式场景中,服务的稳定性是无法保障的,例如executor宕机后无法发送心跳,故driver端需要有executor心跳超时机制,同样如果是driver端宕机或者GC导致executor无法成功发送心跳,那么executor也有自己的超时结束进程的机制

1、executor心跳机制

executor向driver发送心跳的间隔默认[spark.executor.heartbeatInterval]:10s
心跳异常次数超过默认阈值[spark.executor.heartbeat.maxFailures]:60次
当超过阈值后executor会自杀,意味着executor会重试发送大约10分钟的心跳,但大部分不会发送到10分钟
因为driver在120s内没有接收到executor的请求后就会主动杀死executor进程[dirver心跳机制],所以10分钟的场景适用于driver端挂掉的情况下executor自杀,退出错误码为56。
在这里插入图片描述
在这里插入图片描述
executor自动退出码:56
在这里插入图片描述
例如下图:生产中executor连接超时日志
在这里插入图片描述

2、driver心跳机制

driver对executor心跳的检测机制:当driver端检测到executor最后一次心跳时间距今超过了[spark.network.timeout]120s,则启动一个线程杀死executor进程[杀死的过程是请求集群管理器进行处理]
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
此时executor被杀死后的退出码应该是:143
生产中driver日志:

在这里插入图片描述

http://www.lryc.cn/news/8727.html

相关文章:

  • 数据分析就要选择这款免费报表工具
  • node学习-3:服务器渲染和客户端渲染
  • LeetCode刷题笔记和周赛题解总目录
  • 用类比方式学习编程中函数递归(个人理解仅供参考)(内含汉诺塔问题的求解)
  • 【云原生之Docker实战】使用Docker部署Taskover开源个人任务管理工具
  • 5、SQL编程开发与注意事项
  • Allegro如何通过视图显示区分动态和静态铜皮操作指导
  • 测试开发之Django实战示例 第十一章 渲染和缓存课程内容
  • 90%企业在探索的敏捷开发怎么做?极狐GitLab总结了这些逻辑与流程
  • LeetCode-257. 二叉树的所有路径
  • 测试用例该怎么设计?—— 日常加更篇(下)
  • Java基础:接口
  • vuex基础入门:uniapp实现用户登录授权实战
  • Windows系统从权限维持角度进行应急响应
  • 什么是DNS解析?如何提升DNS解析安全?
  • 电路学习笔记
  • C# 数据结构
  • powerjob的worker启动,研究完了这块代码之后我发现了,代码就是现实中我们码农的真实写照
  • 配置Qt Creator
  • C++-类和对象(下)
  • 什么是仓库管理?
  • 对话系统学习概述(仅够参考)
  • 免费CRM客户管理系统真的存在吗?不仅有,还有5个!
  • C#开发的OpenRA使用自定义字典的比较函数
  • DHCP协议
  • C语言进阶——自定义类型:枚举、联合
  • 背景透明(opacity vs background)
  • 华为OD机试 - 最小施肥机能效(Python)| 真题+思路+考点+代码+岗位
  • vue2 使用 cesium 篇
  • 2023预测:PKI将受到企业重点关注