当前位置: 首页 > news >正文

Flink非对齐checkpoint原理(Flink Unaligned Checkpoint)

Flink非对齐checkpoint原理(Flink Unaligned Checkpoint)

为什么提出Unaligned Checkpoint(UC)?

因为反压严重时会导致Checkpoint失败,可能导致如下问题

  • 恢复时间长-服务效率低
  • 非幂等和非事务会导致数据重复
  • 持续反压导致任务加入死循环(可能导致数据丢失,例如超过kafka的过期时间无法重置offset)

UC的原理

UC有两个阶段(UC主要是快速超越buffer data)

  1. 第一阶段:UC同步阶段(任意一个barrier加入缓冲区即开始UC,barrier 直接超越所有input和outputBuffer(算子暂停处理数据))

    • barrier超越
    • 对buffer进行引用
    • 调用算子snapshot state
    • 引用state
  2. 第二阶段:异步阶段(等待所有input channel的barrier都到达)

    • 写算子的state(同步阶段引用的state)
    • 同步阶段引用的input&output buffer
    • 写其它inputChannel Barrier之前的buffer(如下图中蓝色f和G)
    • 汇报给jobmanager

UC已进行的优化

Task原理

Task处理逻辑如下,线程可能卡在结果输出影响UC

在这里插入图片描述

优化一

优化:判断有空闲output buffer再处理数据

在这里插入图片描述

需要多个buffer时还是会卡住,比如flatmap操作

优化二

优化:使用OverDraft Buffer透支Buffer,一旦透支buffer则不能处理数据(1.16已有透支Buffer功能)

在这里插入图片描述

其它优化

优化:Legacy Source(Legacy Source 是 Flink 中的一种数据源,它是在 Flink 1.0 版本中引入的,并在后续版本中被视为过时的来源)兼容UC

在这里插入图片描述

小结

  • 等待空闲Buffer+引入透支overdraft Buffer解决卡顿问题
  • Legacy source兼容等待空闲Buffer逻辑

UC风险

  • 序列化不兼容,无法重启
  • 算子连接变化UC无法恢复
  • Data Buffer会写大量小文件,导致DataNode压力过大
    • 使用Task共享文件(execution.checkpointing.channel-state.number-of-tasks-share-file)
  • 会出现死锁或内存泄漏

UC&AC对比

在这里插入图片描述

优化:在AC超时自动切换到UC(1.11版本开始)

配置方法(1.11以后版本)

execution.checkpointing.aligned-checkpoint.timeout: 10m
execution.checkpointing.unaligned-checkpoint.enabled: true

参考文档

https://www.bilibili.com/video/BV1tR4y1y7gQ/?spm_id_from=…search-card.all.click&vd_source=a52a4a5afaf8d47cb48d828c7e22e5f1

http://www.lryc.cn/news/108138.html

相关文章:

  • Linux crontab命令:循环执行定时任务(详解)
  • Linux系统jenkins+newman+postman持续集成环境搭建
  • flutter:Future、Stream、RxDart
  • Jenkins安装、配置、自动化构建前(nodejs)后端(maven)项目
  • 【网络基础进阶之路】设计网络划分的实战详解
  • 艺术二维码 API 申请及使用
  • JVM GC ROOT分析
  • 记一道有趣的sql题
  • C高级【day2】
  • 认识Webpack插件Plugin;CleanWebpackPlugin插件;HtmlWebpackPlugin;DefinePlugin;Mode模式
  • Redis 6.0的新特性:多线程、客户端缓存与安全
  • 【雕爷学编程】MicroPython动手做(37)——驱动LCD与图文显示3
  • 自然语言处理从入门到应用——LangChain:提示(Prompts)-[提示模板:序列化提示信息]
  • 【LinearAlgebra】Chapter 12 - Linear Algebra in Probability Statistics
  • webshell详解
  • 数据结构 | 搜索和排序——搜索
  • 【python】对象
  • k8s概念-污点与容忍
  • “从零开始学习Spring Boot:构建高效、可扩展的Java应用程序“
  • 通向架构师的道路之tomcat集群
  • 结构体,枚举,联合大小的计算规则
  • Vue2 第十七节 Vue中的Ajax
  • ES6 - 字符串新增的一些常用方法
  • 最新SQLMap安装与入门技术
  • Java 使用 Google Guava 实现接口限流
  • 帮助中心的价值是什么?怎样才能在线搭建官网网站帮助中心?
  • Kubernetes——理论基础
  • 【VUE3】
  • 《金融数据保护治理白皮书》发布(137页)
  • 上海亚商投顾:沪指震荡微涨 金融、地产午后大幅走强