当前位置: 首页 > news >正文

初探Flink的序列化

Flink中的序列化应用场景

程序通常使用(至少)两种不同的数据表示形式[2]:

1. 在内存中,数据保存在对象、结构体、列表、数组、哈希表和树等结构中。
2. 将数据写入文件或通过网络发送时,必须将其序列化为字节序列。

从内存中的表示到字节序列的转化称为序列化,反之称为反序列化。

7a3dea049c90ed33095e2b634c3efc2a.jpeg

Flink中,下述的场景需要进行序列化和反序列化[1]。

1. F1ink中上下游算子之间可能分布在不同的节点上,不同算子的subTask会通过网络传输数据
2. Flink的Source和sink算子消费和写入Kafka Topic
3. F1ink中进行checkPoint将内存中的状态持久化到HDFs和从checkPoint恢复时从HDFS上加载状态数据

Flink未直接使用Java序列化,而是自研了一套高效的序列化机制。

比如我们要在算子间传递一个Tuple3<Integer, Long, Person>的数据(其中Preson为由id和name组成的pojo类),则subTask对其进行序列化的关键步骤如下。

1. 分析识别算子间传输数据的数据类型

2. 根据数据类型创建对应的序列化器

3. 使用序列化器将数据写入到内中(即内存段MemorySegment中)

1. 分析识别算子间传输数据的数据类型
2. 根据数据类型创建对应的序列化器
3. 使用序列化器将数据写入到内中(即内存段MemorySegment中)

dd535617253c98fec21db65f4c64823a.jpeg

958dd941df7105c11ed8bb1a3803d06a.jpeg

Flink支持的类型有以下几种[3],基本覆盖了大部分的用户使用场景,所以一般不用再自定义序列化器。

07604e31a277f5463fa1ddd37a76e73a.jpeg

序列化方案的选择

如上节所述,很多场景(比如下面的场景)中数据在内存和文件/网络间传递时需要考虑序列化。

1. [数据库] 将数据写入到数据库需要进行序列化,从数据库读取的时候需要进行反序列2. [服务调用(REST和远程调用RPC)] 客户端对请求进行序列化,服务器端对请求就行反序列化并将响应进行序列化,客户端最终对响应进行反序列化3. [消息传递(消息代理Kafka和分布式Actor框架)] 节点之间通过互发消息进行通信,消息由由发送者进行序列化并由接收者反序列化。

生产环境中,许多服务需要支持滚动升级,即每次将新版本部署到几个节点,而非所有节点。

这种情况下,必须假设不同的节点正在运行应用代码的不同版本。

这意味着新旧版本的代码,以及新旧数据格式,可能会同时在系统内共存。

为了使系统继续顺利运行,需要保持双向的兼容性。

向后兼容:较新的代码可以读取由旧代码编写的数据。向前兼容:较旧的代码可以读取由新代码编写的数据。

这种情况下,需要选择合适的序列化方案以支持双向兼容性就比较重要。

很多系统会选择Json/XML等文本格式和Avro等二进制格式的方案[2]。

3df9df3c431384d208f9ea3566108478.jpeg


此处以一条json数据为例,可以看到json的文本格式和Protobuf&Avro两种二进制格式的区别。

58855782b24bdff688f383078225fc2c.jpeg

b653c6e900dbc275d2afe2d969cadce4.jpeg

324a3b2aa99842c92703eee13a906bf9.jpeg

参考

1.《Flink SQL与DataStream 入门、进阶与实践》 羊艺超著 P121-P127
2.《数据密集型应用系统设计》 Martin Kleppmann 著 P109-P134
3. 数据类型以及序列化 https://nightlies.apache.org/flink/flink-docs-release-1.12/zh/dev/types_serialization.html

http://www.lryc.cn/news/475273.html

相关文章:

  • QT 机器视觉 (3. 虚拟相机SDK、测试工具)
  • 1分钟解决Excel打开CSV文件出现乱码问题
  • 基于SpringBoot+Vue的仓库管理系统【前后端分离】
  • vue和django接口联调
  • 2-141 怎么实现ROI-CS压缩感知核磁成像
  • 开源库 FloatingActionButton
  • 技术选型不当对项目的影响与补救措施
  • Spring的核心类: BeanFactory, ApplicationContext 笔记241103
  • UE5移动端主要对象生命周期及监听
  • LLM | 论文精读 | CVPR | SelTDA:将大型视觉语言模型应用于数据匮乏的视觉问答任务
  • kafka里的consumer 是推还是拉?
  • 针对物联网边缘设备基于EIT的手部手势识别的1D CNN效率增强的组合模型压缩方法
  • 商品满减、限时活动、折扣活动的计算最划算 golang
  • vue3 + ts + element-plus 二次封装 el-table
  • python传递json参数给php
  • 2.若依vue表格数据根据不同状态显示不同颜色style
  • JZ2440开发板——LCD
  • YOLOv6-4.0部分代码阅读笔记-yolo_lite.py
  • 奇瑞汽车:降阶模型在新能源汽车热管理仿真上的应用
  • 传统的自然语言处理评估指标
  • WPF+MVVM案例实战(十七)- 自定义字体图标按钮的封装与实现(ABC类)
  • Redis数据结构:List类型全面解析
  • 人工智能证书合集
  • php开发实战分析(8):优化MySQL分页查询与数量统计,提升数据库性能
  • shell脚本案例:RAC配置多路径时获取磁盘设备WWID和磁盘大小
  • Android Framework AMS(10)广播组件分析-1
  • 在 Node.js 中使用 .env 文件
  • CesiumJS 案例 P19:添加矩形、监听鼠标左击、监听鼠标右击、监听鼠标移动
  • 路测毫米波雷达标定和目标跟踪
  • 【sqlmap使用手册-持续更新中】