当前位置: 首页 > news >正文

Flink的DataStream状态管理

目录

键控数据流(Keyed DataStream)

键控状态(Keyed State)

值状态(ValueState)

列表状态(ListState)

归约状态(ReducingState)

聚合状态(AggregatingState)

映射状态(MapState)

状态生存时间(TTL) 

算子状态(Operator State)

广播状态(Broadcast State)

实现CheckpointedFunction 使用算子状态


        对于DataStream来说,状态主要分为如下两类:

(1)键控状态(keyed state)

(2)算子状态(Operator State)

        说键控状态之前,不得不提键控数据流。

键控数据流(Keyed DataStream)

        如果希望使用键控状态(keyed state),首先需要在数据流上指定一个键,该键用于对状态(以及流本身中的记录)进行分区。您可以在数据流上使用Java/Scala API中的keyBy(KeySelector)或Python API中的key_by(KeySelector)来指定键。使用该方法后将产生一个键控流KeyedStream,它允许使用键控状态的算子。

        键选择器函数(key selector function)接受一条记录作为输入,并返回该记录的键。键可以是任何类型,并且必须从确定性计算中得到。

        Flink的数据模型不是基于键值对的。因此,不需要将数据集类型物理地打包到键和值中。键是“虚拟的”:它们被定义为实际数据上的函数,以指导分组算子。


http://www.lryc.cn/news/421216.html

相关文章:

  • Daiqile SQL注入绕过
  • 用Python轻松移除PDF中的注释
  • 51单片机—串口
  • vue 通过 this.$refs 创建方法i向子组件传参让子组件更新
  • Java设计模式以及代理模式
  • Elasticsearch 索引库管理:查询、修改与删除
  • 视频大怎么压缩小?分享3种视频压缩方法
  • springboot项目搭建集成 redis/跨域/远程请求
  • lvs详解及实例配置
  • DAY41-动态规划-买卖股票
  • 【C#】StringComparer
  • 阿里云服务器远程登录问题解决指南
  • Datawhale X 魔搭 AI夏令营(2024第四期)AIGC方向 学习笔记
  • VScode前端环境搭建
  • Python自动化测试之selenium - 元素定位
  • 深入探索 npm cache clean --force:清理 npm 缓存的艺术
  • 如何看待“低代码”开发平台的兴起?
  • 自动控制——过阻尼、欠阻尼、临界阻尼及无阻尼
  • 从AlphaGo到AlphaPong:AI乒乓球机器人将如何改变乒乓球竞技?
  • 荒原之梦:考研期间可以玩游戏吗?
  • Hive SQL ——窗口函数源码阅读
  • 用python的Manim 创建大括号
  • 白骑士的Matlab教学附加篇 5.2 代码规范与最佳实践
  • Javaweb--SpringBoot
  • 【数据结构】算法的时间复杂度与空间复杂度
  • PyCharm环境python开发上位机
  • ROS 2 参数使用
  • QT的Model-View实现大批量数据展示
  • 2024年8月7日(mysql主从 )
  • 接口/自动化测试 面试集合