当前位置: 首页 > news >正文

面试题储备-MQ篇 3-说说你对Kafka的理解

问:什么是Kafka?

Kafka是一种开源的mq中间件,最显著的特点就是适合处理大批量的消息数据。

主要特点就是使用partition分区策略,将消息队列分成多个分区,多个分区存储的消息同时消费,提高了消费速度;

为了保证数据高可用,对分区创建副本,副本里包括leader和follower,数据全部存在leader内,数据的读和写也都是操作leader,follower同步leader的数据,和leader放在不同的broker上,当某个broker挂了,follower就会成为新的leader

数据持久化方面,会将消息保存到磁盘里,这样哪怕所有broker都挂了,重启服务后也能获取到消息

Kafka也有消费者分组group,每个分组都可根据消息分发策略消费自己的消息

简答:Kafka是一种开源的消息队列中间件,使用了消息分区策略,将topic进行分区存储,提高了消费效率;对分区创建副本,副本存储在不同的broker上,broker宕机也能保障数据高可用;并且将数据写入磁盘,这样mq宕机也能在重启后从磁盘获取消息;

问:Kafka为什么可以有更高性能?

  1. 首先卡夫卡的分区都是有序的,在将消息写入磁盘的时候,可以按照顺序写入,节省了磁盘寻道的时间。其次写入磁盘的时候使用了批量写入,会先存缓存然后进行批量写入,减少IO次数,提高写入效率。

  2. 使用了0拷贝:
    传统读写磁盘数据,要先从磁盘将数据读取到内核缓冲区,再将数据复制到用户缓冲区,为了进行通信,需要将数据传输给socket,socket又在内核缓冲区内,最后从socket传输给网卡,数据在内核缓冲和用户缓冲之间的的来回传输消耗性能

0拷贝就是放弃这些来回传输,直接把内核中的数据发松到网卡,实现了所谓的0拷贝

  1. jvm使用了操作系统中的pageCache页缓存,操作系统会控制什么时候将数据从页缓存写到磁盘,但是如果正常情况下消息生产速度赶不上消费速度的时候,数据只会在页缓存读写,不会进行磁盘的IO,从而提高了数据读写的性能

问:Kafka中 zookeeper 的作用

用来管理Kafka集群里各种组件,定期和集群进行通信,确定哪些节点挂掉了,哪些节点可用,以及分组的消费情况等信息

问:请讲讲Kafka的副本同步机制

在卡夫卡中,生产者将消息推送给broker后,会等待broker返回一个ack的值去判断是消息是否已经存到broker里,broker接收到消息时,为了保证数据的高可用,在所有的主节点和从节点上的副本都同步完成之后才会返回ack的值,这时候卡夫卡会将同步完成的副本放在ISR可靠副本集合中,同步未完成的副本放在OSR不可靠副本集合中,当主节点不可用时,将可靠集合ISR中的某个从节点晋升为主节点,从而保证晋升的节点数据都是完整的,这就是卡夫卡的副本同步机制

问:请讲讲kafka的工作过程
生产者先从zookeeper的broker文件下的state节点获取topic得分区的leader,生产者将消息发送给leader,leader将消息存储,副本同步leader中存储的消息,leader等待所有副本同步完成,返回给生产者ack结果

问:请讲讲Kafka消息丢失的场景及解决方案

如果消息的生产者一直没等到ack返回就将消息删除了,或者broker主节点存储完成副本没同步完成就返回了ack,或者副节点晋升的时候从不可靠集合里找的节点,都有可能导致消息丢失。
解决方案呢,从生产者来说可以将异步发送改为同步发送,这样就能知道发送的结果;或者使用异步回掉函数获取异步处理的结果;如果结果为失败,重试发送消息。
从broker来说,可以配置ack,ack=0(生产者不关注broker返回结果,发送后直接认为处理完成,会造成丢消息),ack=1(broker主节点存储消息成功,通知生产者,如果主节点挂了,副本节点还没有同步完成,也有可能丢消息),ack=-1(broker的主节点等待所有副本同步完成后,再通知生产者,这样就能保证数据的可靠性)

问:请讲讲Kafka是如何保证消息的顺序消费的

kafka使用了分区机制来进行存储,通过对路由key取模的方式,将消息有序的存储在不同的partition里,如果有三个消息,分别存储在三个分片里,使用三个消费者分别进行消费,那么就有可能出现消费顺序和发送顺序不一致的情况。

为了保证消息的顺序消费,我们需要自定义消息分区路由算法,将指定的key发到同一个分区,因为同一个分区内消息是顺序存储的,所以在消费的时候也可以顺序消费

问: 如果消费的时候使用多线程并发处理消息,如何保证消息的顺序消费

可以将消息放入阻塞队列,然后使用一个异步线程从阻赛队列获取消息进行处理

问:什么是ISR
ISR是kafka副本里的可靠副本集合,用来存储已经同步主节点数据同步完成的消息副本的集合,如果没有同步完成或者数据与主节点数据相差较多,就会被踢出isr集合,当主节点宕机的时候,就会从isr集合中选举出新的主节点,这样就可以保证新的主节点与原主节点的数据一致

问:kafka如何避免重复

http://www.lryc.cn/news/625582.html

相关文章:

  • 图论\dp 两题
  • 设计模式笔记_行为型_命令模式
  • 【React】事件绑定和组件基础使用
  • 从线性回归到神经网络到自注意力机制 —— 激活函数与参数的演进
  • java基础(十二)redis 日志机制以及常见问题
  • 2025年12大AI测试自动化工具
  • 多模态大模型应用落地:从图文生成到音视频交互的技术选型与实践
  • 【模块系列】STM32W25Q64
  • TDengine IDMP 运维指南(4. 使用 Docker 部署)
  • 第六天~提取Arxml中CAN物理通道信息CANChannel--Physical Channel
  • 5. Dataloader 自定义数据集制作
  • C语言基础:(十八)C语言内存函数
  • java17学习笔记-Deprecate the Applet API for Removal
  • 算法——质数筛法
  • yolov5s.onnx转rk模型以及相关使用详细教程
  • 假设检验的原理
  • python的社区互助养老系统
  • word如何转换为pdf
  • MFC中使用EXCEL的方法之一
  • ios使用saveVideoToPhotosAlbum 保存视频失败提示 invalid video
  • 基于单片机的智能声控窗帘
  • 437. 路径总和 III
  • Qt 插件开发全解析:从接口定义,插件封装,插件调用到插件间的通信
  • SWMM排水管网水力、水质建模及在海绵与水环境中的应用
  • 第5章 高级状态管理
  • 结合BI多维度异常分析(日期-> 商家/渠道->日期(商家/渠道))
  • 深入理解 CAS:无锁编程的核心基石
  • nginx安装配置教程
  • 理解JavaScript中的函数赋值和调用
  • Gemini CLI 详细操作手册