当前位置: 首页 > news >正文

说说你了解的 CDC

分析&回答

什么是 CDC

CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等。用户可以在以下的场景下使用CDC:

  • 使用flink sql进行数据同步,可以将数据从一个数据同步到其他的地方,比如mysql、elasticsearch等。
  • 可以在源数据库上实时的物化一个聚合视图
  • 因为只是增量同步,所以可以实时的低延迟的同步数据
  • 使用EventTime join 一个temporal表以便可以获取准确的结果

Flink 1.11 将这些changelog提取并转化为Table API和SQL,目前支持两种格式:Debezium和Canal,这就意味着源表不仅仅是append操作,而且还有upsert、delete操作。

Flink CDC 功能适用的一些场景:

  • 数据库之间的增量数据同步
  • 审计日志
  • 数据库之上的实时物化视图
  • 基于CDC的维表join

Flink  CDC使用方式

目前Flink支持两种内置的connector,PostgreSQL和mysql,接下来我们以mysql为例。

Flink 1.11仅支持Kafka作为现成的变更日志源和JSON编码的变更日志,而Avro(Debezium)和Protobuf(Canal)计划在将来的版本中使用。还计划支持MySQL二进制日志和Kafka压缩主题作为源,并将扩展日志支持扩展到批处理执行。

Flink CDC当作监听器获取增量变更 传统的实时链路如何实现业务数据的同步,我们以canal为例,传统业务数据实时同步会涉及到canal处理mysql的binlog然后同步到kafka,在通过计算引擎spark,flink或storm计算转化,再结果数据传输到第三方存储(hbase,es)如下图所示主要分为三个模块E(Extract) ,T(Transform), L(Load).可以看到涉及的组件很多,链路很长。我们可以直接Flink CDC消费数据库的增量日志,替代了原来作为数据采集层的canal,然后直接进行计算,经过计算之后,将计算结果 发送到下游。整体架构如下:

使用这种架构是好处有:

  • 减少canal和kafka的维护成本,链路更短,延迟更低
  • flink提供了exactly once语义
  • 可以从指定position读取
  • 去掉了kafka,减少了消息的存储成本

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

http://www.lryc.cn/news/155753.html

相关文章:

  • SpingMvc入门
  • JVM的故事——类文件结构
  • springboot自定义表格(动态合并单元格)
  • C++零碎记录(二)
  • 数学建模:回归分析
  • 数据库(一)
  • 【算法与数据结构】106、LeetCode从中序与后序遍历序列构造二叉树
  • kali 安装cpolar内网穿透实现 ssh 远程连接
  • 算法训练 第一周
  • 软件评测师之码制
  • ubuntu18安装cmake27的方法
  • 通讯编程006——NodeJS OPC UA Client开发简单教程
  • 「高等数学」雅可比矩阵和黑塞矩阵的异同
  • 继承(个人学习笔记黑马学习)
  • ToBeWritten之ATTCK 测评方案
  • JSONUtil详解
  • ArcGIS Maps SDK for JS(一):概述与使用
  • 【STM32】FSMC接口的复用和非复用
  • 操作系统强化认识之Shell编程学习与总结
  • 怎么用conda下载清华源的pytorch(自带cuda的版本)
  • 【ES6】CommonJS模块和ES6模块
  • 两个线程同步执行:解决乱箭穿心(STL/Windows/Linux)
  • Ubuntu18.04更改镜像源(网易,阿里,清华,中科大,浙大)
  • 字节码和机器码的区别
  • go学习part21 Redis和Go(2)
  • 从0到1学会Git(第二部分):Git的本地操作和管理
  • hive lateral view 实践记录(Array和Map数据类型)
  • 理解 std::thread::join
  • C#循环定时上传数据,失败重传解决方案,数据库标识
  • R语言图形的组合( par(),layout(),par(fig()) )