当前位置: 首页 > news >正文

Kafka的三高设计原理

1.生产者缓存机制--高性能

生产者缓存机制的主要目的是将消息打包,减少网络IO频率

kafka生产者端存在消息累加器RecordAccumulator,它会对每个Partition维护一个双端队列,队列中消息到达一定数量后 或者 到达一定时间后,通过sender线程批量的将消息发送给kafka服务端。(批量发送)

2.发送应答机制--高可用

发送应发机制保证了消息可以安全到达服务端

Producer端一个不太起眼的属性ACKS_CONFIG:

  • acks = 0,生产者不关心broker的应答;不安全,但是速度快
  • acks = all or -1,生产者需要所有partition的应答;最安全,但是效率低一些
  • acks = 1,生产者只需要Leader partition的应答;中和

3.生产者消息幂等性--高可用

防止消息重复发送到服务端Broker

(解决了单分区发送的问题)

每个Producer发送消息到Broker的时候,会携带<PID,SN>给Broker,PID是该Producer的唯一标识,SN是消息序号。Broker端会维护这个SN的序列号。如果发送端SN<=服务端SN,则重复应答即可;如果发送端SN>服务端SN,则说明发送的消息有丢失!如果发送端SN=服务端SN+1,则正常接收消息。

(多分区发送的幂等性问题需要事务机制来保证)

4.Controller Broker和Leader Partition--高可用

监控作用

基于Zookeeper的Controller选举机制,Controller Broker管理所有Broker的健康状态;

Leader Partition管理该Topic下的所有partition;

当一个broker中存在多个Leader partition的时候,会触发Leader partition的自平衡机制,涉及到大量消息的转移和同步。

5.Partition的故障恢复机制--高可用

保证各partition的数据一致性

  • LEO(Log End Offset): 每个Partition的最后一个Offset
  • HW(High Watermark): 一组Partiton中最小的LEO

当follower partition故障时,该Follower节点会读取本地记录的上一次的HW,将自己的日志中高于HW的部分信息全部删除掉,然后从HW开始,向Leader进行消息同步。

当Leader partition故障时,会选举出新的Leader partition,其他Follower会将各自的Log文件中高于HW的部分全部清理掉,然后从新的Leader中同步数据。

如果follower partition的HW不一致,那kafka通过epoch机制来进行数据同步。

(每个Leader Partition在上任之初,都会新增一个新的Epoch记录。这个记录包含更新后的epoch版本号,以及当前Leader Partition写入的第一个消息的偏移量。接下来其他Follower Partition要更新数据时,就可以不再依靠自己记录的HW值判断拉取消息的起点,而是根据这个最新的epoch条目来同步

6.消息存储--高性能

三个日志文件存储kafka的消息,.log存储实际消息,.index以偏移量为索引,.timeindex以时间戳为索引

.log只可以进行消息顺序写的追加,不支持修改和删除!顺序写的效率很高

.index类似于跳表!<offset,pos>,跳表的查询效率高,redis也用到跳表!

7.零拷贝--高性能

producer发送给broker的消息通过mmap持久化到磁盘;

consumer通过sendfile方式拉取broker的消息;

8.消费者防止消息重新消费--高性能

1)消费者通过订单的id去查看该消息是否已被消费过(消息如果被消费了,则该id已存在)

2)通过redis维持offset,消费时将消息的offset与redis中的offset进行比较

9.kafka消息零丢失方案--高可用

  • 生产者发送消息到broker不丢失:acks = -1或者all;或者1。
  • broker保证消息不丢失:1)配置多备份因子;2)合理刷盘频率
  • 消费者防止异步处理丢失消息:手动提交offset更安全一些

10.消息积压问题--高可用

  1. 如果业务正常,只是因为消费者消费太慢,则增加partition数量,增加消费者数量即可。
  2. 发送消息时,尽量保证消息在各个Partition分布均匀;
  3. 如果业务异常,则降级处理,人工介入分析该问题。
http://www.lryc.cn/news/431619.html

相关文章:

  • 生信圆桌x生信宝库:生物信息学资源与工具的终极指南
  • centos7 install rocketmq 宿主机快速搭建RocketMQ单机开发环境_centos7 单机部署rocketmq命令
  • 2024高教社杯全国大学生数学建模竞赛(A题)深度剖析 _ 建模完整过程+详细思路+代码全解析
  • What is Approximation Ratio?
  • 探索Unity与C#的无限潜能:从新手到高手的编程之旅
  • 初始MYSQL数据库(2)——创建、查询、更新、删除数据表的相关操作
  • OpenCV直方图计算
  • 多线程篇(并发相关类- 原子操作类)(持续更新迭代)
  • 数学建模常用工具总结
  • 【Redis】为什么选择 Redis 做缓存?
  • Flutter 开发常用第三方库总结
  • OpenCV中的颜色映射函数applyColorMap的使用
  • Ubuntu22.04安装colmap
  • 认识GO语言中的nil,零值与空结构体
  • Node.js sqlite3:Statement对象详解
  • ELK学习笔记——如何给Kibana新增用户和角色
  • Minikube Install Kubernetes v1.18.1
  • 重修设计模式-创建型-工厂模式
  • 使用Cskin时候 遇到按钮有默认阴影问题解决
  • 121.rk3399 uboot(2017.09) 源码分析1(2024-09-05)
  • 【图论】虚树 - 模板总结
  • [C#学习笔记]注释
  • c# checkbox的text文字放到右边
  • 【node.js】基础之修改文件
  • Notepad++回车不自动补全
  • CSS线性渐变拼接,一个完整的渐变容器(div),要拆分成多个渐变容器(div),并且保持渐变效果一致
  • 【60天备战软考高级系统架构设计师——第十天:软件设计与架构综合练习】
  • 2024.8.15(python管理mysql、Mycat实现读写分离)
  • CMU 10423 Generative AI:lec2
  • 恋爱相亲交友系统源码原生源码可二次开发APP 小程序 H5,web全适配