当前位置: 首页 > news >正文

“Kafka面试攻略:核心问题与高效回答”

1,生产者发送消息的原理

发送消息的过程中,涉及到两个线程,main线程和sender线程,main线程会创建一个双端队列,main线程向双端队列发送消息,sender线程从双端队列里拉取消息,发送给Kafka Broker。

2,如何给数据去重

幂等性就是指生产者不论向Broker发送多少次重复数据,Broker端都只会持久化一条,保证了数据不重复

ACK级别调成-1,分区的副本数要大于等于二,ISR最小副本数也要大于等于二

什么是ISR ISR就是指只保留存活的leader和follower的队列

3,如何保证数据的安全性

kafka提供了三种ACK级别

1,acks=0:生产者向leader发送消息不会等待应答,认为消息发送成功,这种方式效率较高,可靠性最差,可能导致数据的丢失。

2,acks=1:生产者向leader发送消息给leader,leader拿到数据后应答之后挂掉了还没来得及同步给follower,但是生产者接到应答后觉得已经发送成功了,这个leader挂掉后会重新选举一个leader,这个时候leader向生产者要数据,但是生产者觉得已经发送成功了,就不会给新的leader发数据,导致数据的丢失

3,acks=-1,生产者向leader发送消息,leader开始同步给其他的follower,leader和ISR队列里面的所有节点收齐数据后应答,否则不会走,但是此时有一个follower出问题了迟迟同步不了,这个时候就需要用到ISR,ISR里面都是存活的leader,如果有follower挂了就会被踢出ISR队列。默认时间是30秒。

这还不是最可靠的

数据完全可靠的条件=ACK级别设置为-1+分区副本数大于等于二ISR里面应答的最小副本数大于等于2

4.如何解决数据积压的问题?

1,如果是Kafka的消费能力不足,则可以考虑增加主题Topic的分区数,并同时提升消费组的消费者数量。

2,如果是下游的数据处理不及时;提高每批次拉取的数量,批次拉取数据过少使处理的数据小于生产的数据,也会数据积压。

5,Kafka对leader的选举机制。

Kafka集群中会有一个broker的Controller会被选举位controller leader,负责管理集群broker的上下线,所有topic分区副本分配和leader选举。

leader的选举规则:首先要在ISR里存活,按照ar的排名在前的优先。

6,Kafka如何提高吞吐量?

1,如果是生产者要提高吞吐量的话,

首先要调整batch.size的大小,默认的批次是16k,linger.ms等待时间,,修改为5-100ms,compression.cype:压缩snappy,设置缓冲区大小RecordAccumlator 修改为64m。

2,如果是要提高消费者吞吐量的话,

1,如果是Kafka的消费能力不足,则可以考虑增加主题Topic的分区数,并同时提升消费组的消费者数量。

2,如果是下游的数据处理不及时;提高每批次拉取的数量,批次拉取数据过少使处理的数据小于生产的数据,也会数据积压。

7,如何做到高效读写数据

因为Kafka本身是分布式集群,可以采用分区技术,并行度高,读写数据采用稀疏索引,可以快速定位要消费的数据,顺写磁盘,页缓存+零拷贝技术。

8,offect机制

我们要如何指定offect消费

Kafka提供了seek方法,可以让我们从分区位置开始消费。

面试题:问:假如 kafka 崩了,重启之后,想继续消费,怎么做?

1、确定要消费的主题是哪几个

2、使用命令或者其他的组件查看 __consumer_offset 主题下的偏移量信息,找到我们关心的主题再崩溃之前消费到了哪里。

3、使用 java 代码,里面有一个非常重要的方法 seek,指定需要消费的主题,分区以及偏移量,就可以继续消费了。

offect位移

记录消费到哪里的这个值,就是偏移量。

记录:哪个主题,哪个分区,哪个位置。

http://www.lryc.cn/news/488563.html

相关文章:

  • C++ 多线程std::thread以及条件变量和互斥量的使用
  • 新华三H3CNE网络工程师认证—子接口技术
  • 【MySQL】InnoDB内存结构
  • 基于大数据爬虫数据挖掘技术+Python的网络用户购物行为分析与可视化平台(源码+论文+PPT+部署文档教程等)
  • 蓝桥杯每日真题 - 第19天
  • CentOS7.9.2009的yum更换vault地窖保险库过期源,epel的archive归档源 笔记241117
  • Spark SQL大数据分析快速上手-完全分布模式安装
  • Java面试题2024-Java基础
  • 局域网协同办公软件,2024安全的协同办公软件推荐
  • osg、osgearth简介及学习环境准备
  • nodejs基于微信小程序的云校园的设计与实现
  • uni-app快速入门(十)--常用内置组件(下)
  • golang基础
  • Selenium + 数据驱动测试:从入门到实战!
  • LLaMA与ChatGLM选用比较
  • GPTZero:高效识别AI生成文本,保障学术诚信与内容原创性
  • C/C++ 优化,strlen 示例
  • 【动手学深度学习Pytorch】1. 线性回归代码
  • 深入理解PyTorch中的卷积层:工作原理、参数解析与实际应用示例
  • DataGear 5.2.0 发布,数据可视化分析平台
  • uniapp: vite配置rollup-plugin-visualizer进行小程序依赖可视化分析减少vender.js大小
  • 深度学习:如何复现神经网络
  • Spring Boot与MyBatis-Plus的高效集成
  • 【Unity ShaderGraph实现流体效果之Function入门】
  • Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?
  • React-useRef与DOM操作
  • Mistral AI 发布 Pixtral Large 模型:多模态时代的开源先锋
  • Windows、Linux多系统共享蓝牙设备
  • C语言 | Leetcode C语言题解之第564题寻找最近的回文数
  • wsl虚拟机中的dockers容器访问不了物理主机