当前位置: 首页 > news >正文

怎么理解flink的异步检查点机制

背景

flink的checkpoint监控页面那里有两个指标Sync Duration 和Async Duration,一个是开始进行同步checkpoint所需的时间,一个是异步checkpoint过程所需的时间,你是否也有过疑惑,是否只是同步过程中的时间才会阻塞正常的数据处理,而异步checkpoint的时间不会影响正常的数据处理流程?

问题追踪

这里我们只拿Aligned checkpoint 和FsBackEnd作为例子,我们知道当一个算子收到前置所有算子的checkpoint barrier后,就会开始进行checkpoint操作:

  1. checkpoint操作的过程的第一步是同步操作,也就是这一步使用的lock和数据处理过程使用的lock是同一个,同步checkpoint操作的过程中是会阻塞数据正常处理流程的,在同步处理的这一步骤中最主要进行的操作是对当前的状态进行快照操作,进行状态快照的过程只是拷贝当前状态的对象引用,那一定有人说,你仅仅拷贝对象的引用,那么当这个对应引用所指向的对象是可变的并且数据处理过程中改变了这个对象内容,那你之前快照的内容不就变了吗?其实是这样的,如果数据处理过程中改变了对象的内容,那么会生成一个新的对象应用,替换状态对象中持有的旧的对象引用,不过快照中的持有的还是旧的对象应用,而旧对象应用指向的对象不会发生改变
  2. checkpoint过程的第二步是把快照的数据拷贝到远程存储HDFS上,这一步由于涉及到的网络传输,所以可能耗时相当长的时间,不过数据处理过程和异步checkpoint的过程是并行的,不会影响到数据的处理。

结论

checkpoint的同步处理阶段会阻塞数据的正常处理流程,相当于这个算子在此期间是不能进行数据处理的,而checkpoint的异步处理阶段和算子的数据处理是并行进行的,不会影响到数据的正常处理流程

参考:
https://zhuanlan.zhihu.com/p/392556253

http://www.lryc.cn/news/162662.html

相关文章:

  • SpringMVC <url-pattern/>解读
  • 大学毕业设计的益处:培养实践能力、深入专业领域、展示自信与建立联系
  • ChatGPT:概述Vue.js中data函数初始化和created钩子函数调用的顺序和问题解决方法
  • SpringBoot【基础篇】
  • Vuex - state 状态(获取和使用共享数据)
  • tcp连接+套接字编程
  • OpenCV(三十四):轮廓外接最大、最小矩形和多边形拟合
  • Kafka3.0.0版本——消费者(offset的默认维护位置)
  • Wireshark技巧[监听串口包]
  • 安全运营中心即服务提供商评估
  • 算法通关村第十三关——幂运算问题解析
  • Python 之使用Numpy库来加载Numpy(.npy)文件并检查其内容
  • C#学习系列之UDP同端口收发问题
  • SpringMVC之文件上传下载以及jrebel的使用
  • 基于Fomantic UI Web构建 个人导航站点网站源码 网站技术导航源码
  • DRF02-请求响应与路由
  • http直接调用paddlepaddle实现文字转语音,语音转文字
  • 9. xaml ComboBox控件
  • 【后量子密码】CRYSTALS-KYBER 算法(二):密钥封装 KEM(附源码分析)
  • 什么是原⼦操作?在 JUC 中有哪些原⼦类?
  • 2022年12月 C/C++(八级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • Hadoop的HDFS的集群安装部署
  • uniapp 在 onLoad 事件中 this.$refs 娶不到的问题
  • 常見算法時間複雜度分析
  • 自学Python05-学会Python中的函数定义
  • 设计模式-组合模式(Composite)
  • 架构核心技术之微服务架构
  • SQL Server2022版+SSMS安装教程(保姆级)
  • go语言基础---8
  • Oracle的 dblink 学习笔记