当前位置: 首页 > news >正文

Flink之Watermark生成策略

在Flink1.12以后,watermark默认是按固定频率周期性的产生.
在Flink1.12版本以前是有两种生成策略的:

  • AssignerWithPeriodicWatermarks周期性生成watermark
  • AssignerWithPunctuatedWatermarks[已过时] 按照指定标记性事件生成watermark

新版本API内置的watermark策略

  • 单调递增的watermark生成策略,也就是紧跟最大事件时间(完全不容忍乱序)

    WatermarkStrategy.forMonotonousTimestamps();
    
  • 允许乱序的watermark生成策略,最大事件时间 - 容错时间

    WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(3));
    
  • 自定义的watermark生成策略

    WatermarkStrategy.forGenerator(new WatermarkGenerator(){...})
    
  • Monotonous策略图解
    image-20230927163149513
    这里时间戳为1,2,3的数据正常进入到0~5window
    image-20230927163917565
    当时间戳为7的数据进来后,就会将watermark更新为7,跟新后0~5window就会进行计算,然后销毁
    image-20230927164412905
    时间为4,5,6的数据准备进入到5~10window时发现不满足进入条件,这时就会将这三条数据判定为迟到数据,然后就会将这三条数据舍弃掉

  • BoundedOutOfOrderness策略图解
    image-20230927170716513
    时间戳为1,2,3正常进入到0~ 5window,由于设置的容错时间为3,所以当时间戳为3的数据到达之后,watermark更新为0(3 - 3).
    image-20230927171113194
    当时间戳为7的数据到达之后,则会进入5~10window当中,watermark更新为4(7 - 3)
    image-20230927171829338
    因为watermark7到达时只更新到了4,所以0~5window还没有进行计算,当4,5,6到达之后还可以正常进入到0~5window.
    image-20230927172012825
    当时间戳为8的数据到达之后进入到5~10window,更新watermark5(8 - 3),这时0~5window触发计算并销毁.

关于自定义的策略就没什么可说的了,这个要根据用户自己定义的逻辑生成watermark,以实际业务需求为基准.

http://www.lryc.cn/news/179167.html

相关文章:

  • 提升API文档编写效率,Dash for Mac是你的不二之选
  • 无人注意,新安装的 Ubuntu 23.04 不支持安装 32 位应用
  • 全面横扫:dlib Python API在Linux和Windows的配置方案
  • 30种编程语言写国庆节快乐,收藏后改改留着拜年用
  • SpringBoot2.7.9 配置文件加载方式
  • 详解C语言—文件操作
  • IntelliJ IDEA 常用快捷键一览表
  • cola 架构简单记录
  • FFmpeg常用结构体分析
  • ChatGPT 学习笔记 | 什么是 Prompt-tuning?
  • [红明谷CTF 2021]write_shell %09绕过过滤空格 ``执行
  • JVM学习笔记
  • 使用 gst-element-maker 创建一个完全透传的 videofilter 插件
  • 华为ensp单臂路由及OSPF实验
  • Android LiveData 介绍
  • 好看的货架效果(含3D效果)
  • 【每日一题】1498. 满足条件的子序列数目
  • Go语言数据类型实例讲解 - Go语言从入门到实战
  • RocketMQ 事务消息发送
  • 后端-POST请求中只需要两个参数,后端不想创建对象时
  • UG\NX二次开发 通过点云生成曲面 UF_MODL_create_surf_from_cloud
  • Linux常用指令(二)
  • 【HUAWEI】单臂路由
  • 安全学习_开发相关_Java第三方组件Log4jFastJSON及相关安全问题简介
  • 零代码编程:用ChatGPT批量自动下载archive.org上的音频书
  • 力扣用队列实现栈
  • 一朵华为云,如何做好百模千态?
  • 华为云云耀云服务器L实例评测 | 实例使用教学之软件安装:华为云云耀云服务器环境下安装 Docker
  • 小程序编译器性能优化之路
  • FFmpeg 命令:从入门到精通 | ffmpeg 命令分类查询