当前位置: 首页 > news >正文

Flink实现准确和高效流处理的关键问题

时间相关:
时间相关

Watermark 水位线

  • 水位线是插入到数据流中的一个标记,可以认为是一个特殊的数据。
  • 水位线主要的内容是一个时间戳,用来表示当前事件时间的进展
  • 水位线是基于数据的时间戳生成的。
  • 水位线的时间戳必须单调递增,以确保任务的事件时间时钟一直向前推进,进展
  • 水位线可以通过设置延迟,来保证正确处理乱序数据。
  • 一个水位线 Watermark(t),表示在当前流中事件时间已经达到了时间戳 t,这代表 t之前的所有数据都到齐了,之后流中不会出现时间戳 t‘ ≤ t 的数据。

Watermark 多并行度下的生成、传递

生成:
  • 间歇性更新(punctuated watermarks):
    遇到新事件后更新

With punctuated watermarks, Flink calls checkAndGetWatermark() on each new event, i.e. right after calling assignWatermark(). An actual watermark is emitted only if checkAndGetWatermark() returns a non-null value which is greater than the last watermark.
来自stackoverflow回答

  • 周期性更新
    定期更新

With periodic watermarks, Flink calls getCurrentWatermark() at regular interval, independently of the stream of events.

设置周期性更新的时间

// 设置Watermar
http://www.lryc.cn/news/389441.html

相关文章:

  • isidentifier()方法——判断字符串是否为合法的Python标识符或变量名
  • 天猫商品列表数据接口(Tmall.item_search)
  • React+TS前台项目实战(二十一)-- Search业务组件封装实现全局搜索
  • SEO与AI的结合:如何用ChatGPT生成符合搜索引擎优化的内容
  • 【信息系统项目管理师知识点速记】组织通用管理:知识管理
  • CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation
  • DP:子序列问题
  • Spring Data与多数据源配置
  • 【前端vue3】TypeScrip-类型推论和类型别名
  • javaEE——Servlet
  • Kotlin扩展函数(also apply run let)和with函数
  • C语言笔记27 •单链表介绍•
  • C++编程(五)单例模式 友元
  • 012-GeoGebra基础篇-构造圆的切线
  • 数据结构速成--查找
  • SpringMVC的基本使用
  • 【PYG】Cora数据集分类任务计算损失,cross_entropy为什么不能直接替换成mse_loss
  • MyBatis-plus这么好用,不允许还有人不会
  • Linux驱动开发实战宝典:设备模型、模块编程、I2C/SPI/USB外设精讲
  • 安全技术和防火墙
  • Webpack: 开发 PWA、Node、Electron 应用
  • python处理txt文件, 如果第一列和第二列的值在连续的行中重复,则只保留一行
  • C++17中引入了什么新的重要特性
  • Andrej Karpathy提出未来计算机2.0构想: 完全由神经网络驱动!网友炸锅了
  • 用国内镜像安装docker 和 docker-compose (ubuntu)
  • Linux多线程【线程互斥】
  • os实训课程模拟考试(大题复习)
  • QT/QML国际化:中英文界面切换显示(cmake方式使用)
  • 设计模式在Java项目中的实际应用
  • js制作随机四位数验证码图片