当前位置: 首页 > news >正文

Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】

RocksDB是Flink中用于持久化状态的默认后端,它提供了高性能和可靠的状态存储。然而,当处理大型状态并频繁读写时,可能会导致背压问题,因为RocksDB需要从磁盘读取和写入数据,而这可能成为瓶颈。

遇到的问题

Flink开发中遇到读写state大对象的问题,Flink webUI 火焰图表现如下:
在这里插入图片描述从图上看,瓶颈卡在序列化与反序列化,结合业务逻辑代码,业务涉及state大对象的读写,并且是ValueState。

问题分析

如上,作为初学者来说,如果要在键值状态中存储Map<K, V>数据结构的状态,可能会认为使用ValueState<HashMap<K, V>>或者使用MapState<K, V>都是可行的。

如果我们选择使用HashMap状态后端,那么两种方式的性能上不会有很大差异,但是如果我们选择使用RocksDB状态后端,则推荐使用MapState<K, V>,避免使用ValueState<HashMap<K, V>>。

  • 因为ValueState<HashMap<K, V>>在将数据写入RocksDB时,是将一整个HashMap<K, V>序列化为字节数组之后写入的。
  • 同样,在读取时,也是先读取到字节数组,然后反序列化为一整个HashMap<K, V>后,再给用户使用。

所以每次访问和更新ValueState时,实际上都是对HashMap<K, V>这个集合类的大对象做序列化以及反序列化(如上图所示),而这是一个及其耗费资源的过程,很容易就会导致Flink作业产生性能瓶颈,所以极不推荐在ValueState中存储大对象。

问题调优

使用MapState代替ValueState,精简state数据量,问题解决。
除此之外还有一些其他调优策略:

  1. 增加算子并行度:通过增加算子的并行度,可以将负载分布到多个任务实例上,从而提高整体处理能力。这样可以减少单个任务实例的读写压力。

  2. 增加RocksDB的内存限制:RocksDB使用内存来缓存热数据,可以通过增加RocksDB的内存限制来提高缓存效果。可以通过Flink的配置选项state.backend.rocksdb.memory.managed来设置内存限制。

  3. 调整RocksDB的配置参数:RocksDB有许多配置参数可以调整,以优化读写性能。可以根据具体情况调整参数,例如write_buffer_size、max_write_buffer_number、max_background_compactions等。

  4. 使用异步快照:Flink提供了异步快照机制,可以将状态异步地持久化到RocksDB。这可以减少同步写入RocksDB的开销,并提高整体吞吐量。

  5. 定期进行状态清理和压缩:定期清理过期的状态数据和进行状态压缩可以减少磁盘占用和提高读写性能。可以使用Flink的状态后端接口进行定期的清理和压缩操作等等。

拿当前实例来说,虽然调优有很多种方式,例如:可以通过增量subtask并行度来提高处理能力(数据量大了还是会出现处理上的瓶颈,不可持续),但并没有找出问题的根本原因,或者说调优最大化。通过使用MapState代替ValueState,精简state数据量,可以达到调优最大化,以最小的代价解决最大的问题。

http://www.lryc.cn/news/292698.html

相关文章:

  • 代码随想录算法训练营第二十四天|● 理论基础 ● 77. 组合
  • 买保险如何填健康告知
  • 云贝教育 | 【技术文章】Oracle 19c RAC修改网络
  • Android SELinux:保护您的移动设备安全的关键
  • 第十三章认识Ajax(四)
  • 使用 Node.js 和 Cheerio 爬取网站图片
  • 2024美赛数学建模E题思路源码
  • 解决Docker AList本地挂载失效的问题。
  • Emmet常用语法总结
  • Android 12系统源码_页面管理(四)获取系统当前最上层的Activity信息
  • RK3588开发板Ubuntu与开发板使用U盘互传
  • 【BUG】golang gorm导入数据库报错 “unexpected type clause.Expr“
  • TCP/IP网络模型
  • github连不上
  • Excel计算表达式的值
  • 26元/月起!腾讯云一键自动搭建4核16G幻兽帕鲁服务器
  • 【C++游戏开发-01】推箱子
  • 【lesson26】学习MySQL事务前的基础知识
  • 持续积累分享金融知识
  • 网络协议 UDP协议
  • 爬虫笔记(三):实战qq登录
  • 又涨又跌 近期现货黄金价格波动怎么看?
  • 软件压力测试:探究其目的与重要性
  • Android.bp入门指南之浅析Android.bp文件
  • 2024年美赛 (D题ICM)| 湖流网络水位控制 |数学建模完整代码+建模过程全解全析
  • 安卓网格布局GridLayout
  • DHCP简介
  • Hadoop生态系统中一些关键组件的详细解析
  • 功能强大的开源数据中台系统 DataCap 2024.01.1 发布
  • Redis的bitmap使用不当,我内存爆了