当前位置：首页 > news >正文

面试题储备-MQ篇 3-说说你对Kafka的理解

news 2025/8/20 7:51:36

问：什么是Kafka？

Kafka是一种开源的mq中间件，最显著的特点就是适合处理大批量的消息数据。

主要特点就是使用partition分区策略，将消息队列分成多个分区，多个分区存储的消息同时消费，提高了消费速度；

为了保证数据高可用，对分区创建副本，副本里包括leader和follower，数据全部存在leader内，数据的读和写也都是操作leader，follower同步leader的数据，和leader放在不同的broker上，当某个broker挂了，follower就会成为新的leader

数据持久化方面，会将消息保存到磁盘里，这样哪怕所有broker都挂了，重启服务后也能获取到消息

Kafka也有消费者分组group，每个分组都可根据消息分发策略消费自己的消息

简答：Kafka是一种开源的消息队列中间件，使用了消息分区策略，将topic进行分区存储，提高了消费效率；对分区创建副本，副本存储在不同的broker上，broker宕机也能保障数据高可用；并且将数据写入磁盘，这样mq宕机也能在重启后从磁盘获取消息；

问：Kafka为什么可以有更高性能？

首先卡夫卡的分区都是有序的，在将消息写入磁盘的时候，可以按照顺序写入，节省了磁盘寻道的时间。其次写入磁盘的时候使用了批量写入，会先存缓存然后进行批量写入，减少IO次数，提高写入效率。
使用了0拷贝：
传统读写磁盘数据，要先从磁盘将数据读取到内核缓冲区，再将数据复制到用户缓冲区，为了进行通信，需要将数据传输给socket，socket又在内核缓冲区内，最后从socket传输给网卡，数据在内核缓冲和用户缓冲之间的的来回传输消耗性能

0拷贝就是放弃这些来回传输，直接把内核中的数据发松到网卡，实现了所谓的0拷贝

jvm使用了操作系统中的pageCache页缓存，操作系统会控制什么时候将数据从页缓存写到磁盘，但是如果正常情况下消息生产速度赶不上消费速度的时候，数据只会在页缓存读写，不会进行磁盘的IO，从而提高了数据读写的性能

问：Kafka中 zookeeper 的作用

用来管理Kafka集群里各种组件，定期和集群进行通信，确定哪些节点挂掉了，哪些节点可用，以及分组的消费情况等信息

问：请讲讲Kafka的副本同步机制

在卡夫卡中，生产者将消息推送给broker后，会等待broker返回一个ack的值去判断是消息是否已经存到broker里，broker接收到消息时，为了保证数据的高可用，在所有的主节点和从节点上的副本都同步完成之后才会返回ack的值，这时候卡夫卡会将同步完成的副本放在ISR可靠副本集合中，同步未完成的副本放在OSR不可靠副本集合中，当主节点不可用时，将可靠集合ISR中的某个从节点晋升为主节点，从而保证晋升的节点数据都是完整的，这就是卡夫卡的副本同步机制

问：请讲讲kafka的工作过程
生产者先从zookeeper的broker文件下的state节点获取topic得分区的leader，生产者将消息发送给leader，leader将消息存储，副本同步leader中存储的消息，leader等待所有副本同步完成，返回给生产者ack结果

问：请讲讲Kafka消息丢失的场景及解决方案

如果消息的生产者一直没等到ack返回就将消息删除了，或者broker主节点存储完成副本没同步完成就返回了ack，或者副节点晋升的时候从不可靠集合里找的节点，都有可能导致消息丢失。
解决方案呢，从生产者来说可以将异步发送改为同步发送，这样就能知道发送的结果；或者使用异步回掉函数获取异步处理的结果；如果结果为失败，重试发送消息。
从broker来说，可以配置ack，ack=0(生产者不关注broker返回结果，发送后直接认为处理完成，会造成丢消息)，ack=1(broker主节点存储消息成功，通知生产者，如果主节点挂了，副本节点还没有同步完成，也有可能丢消息)，ack=-1(broker的主节点等待所有副本同步完成后，再通知生产者，这样就能保证数据的可靠性)

问：请讲讲Kafka是如何保证消息的顺序消费的

kafka使用了分区机制来进行存储，通过对路由key取模的方式，将消息有序的存储在不同的partition里，如果有三个消息，分别存储在三个分片里，使用三个消费者分别进行消费，那么就有可能出现消费顺序和发送顺序不一致的情况。

为了保证消息的顺序消费，我们需要自定义消息分区路由算法，将指定的key发到同一个分区，因为同一个分区内消息是顺序存储的，所以在消费的时候也可以顺序消费

问：如果消费的时候使用多线程并发处理消息，如何保证消息的顺序消费

可以将消息放入阻塞队列，然后使用一个异步线程从阻赛队列获取消息进行处理

问：什么是ISR
ISR是kafka副本里的可靠副本集合，用来存储已经同步主节点数据同步完成的消息副本的集合，如果没有同步完成或者数据与主节点数据相差较多，就会被踢出isr集合，当主节点宕机的时候，就会从isr集合中选举出新的主节点，这样就可以保证新的主节点与原主节点的数据一致

问：kafka如何避免重复

查看全文

http://www.lryc.cn/news/625582.html