当前位置: 首页 > news >正文

Kafka Log存储解析以及索引机制

1.概述

  在Kafka架构,不管是生产者Producer还是消费者Consumer面向的都是Topic。Topic是逻辑上的概念,而Partition是物理上的概念。每个Partition逻辑上对应一个log文件,该log文件存储是Producer生产的数据。Producer生产的数据被不断追加到该log文件末端,且每条数据都有自己的offset。Kafka对于log文件是采取分片和索引机制。

2.Kafka的topic

启动kafka集群,集群中有三台Broker; 设置3个分区,3个副本;

2.1 创建hy-test-topic

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --create --replication-factor 3 --partitions 3 --topic hy-test-topic

2.2 发送消息到topic

public static void main(String[] args) {//1.创建kakfa生产者的配置对象Properties prop = new Properties();//2.给生产者配置对象添加配置信息prop.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092");prop.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serialization.StringSerializer");prop.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serialization.StringSerializer");prop.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384);prop.put(ProducerConfig.LINGER_MS_CONFIG, 1);prop.put(ProducerConfig.BUFFER_MEMORY_CONFIG,33554432);//3.创建生产者对象KafkaProducer<String, String> kafkaProducer = new KafkaProducer<>(prop);//4.调用send方法,发送消息for (int i = 0; i < 5; i++) {kafkaProducer.send(new ProducerRecord<String,String>("hy-test-topic",Integer.toString(i),Integer.toString(i)));}//5.关闭资源kafkaProducer.close();
}

查看log.dirs

在这里插入图片描述

2.3 查看topic的分区和副本

bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --describe --topic hy-test-topic

在这里插入图片描述
可以看出:

  • 分区Partition-0 在broker.id=4中,其余都是副本 Replicas 2,3
  • 分区Partition-1 在broker.id=2中,其余都是副本 Replicas 3,4
  • 分区Partition-2 在broker.id=3中,其余都是副本 Replicas 4,2

通过zookeeper查看leader在那个broker上

[zk: localhost:2181(CONNECTED) 14] get /kafka/brokers/topics/hy-test-topic/partitions/0/state{"controller_epoch":49,"leader":4,"version":1,"leader_epoch":0,"isr":[4,2,3]}

2.4 分区文件

在这里插入图片描述
在这里插入图片描述

名称描述类型默认
log.segment.bytes单个日志文件的最大大小int1073741824(1G)

继续发送消息会生成新的segment

在这里插入图片描述

可以看出

  • 第一个segment文件00000000000000000000.log快要达到 log.segment.bytes时,开始创建 00000000000000001187.log
  • .log.index.timeindex文件是一起出现; 并且名称是以文件第一个offset命名的。
  • .log存储消息文件
  • .index存储消息的索引
  • .timeIndex,时间索引文件,通过时间戳做索引

2.5 分区下文件内容

使用kafka自带工具bin/kafka-run-class.sh 来读取分区下的文件内容

2.5.1 消息文件.log
bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.log

在这里插入图片描述

最后一行显示的是

baseOffset: 1186  position: 1072277020 CreateTime: 1695792070168
2.5.2 消息索引文件.index
bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.index

在这里插入图片描述

offset: 1186 position: 1072277020
2.5.3 时间索引文件.timeindex
/opt/module/kafka/bin/kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.timeindex

在这里插入图片描述

2.5.4 Kafka如何查找指定offset的Message

借用博主@lizhitao 博客上的一张图来展示是如何查找Message的。

在这里插入图片描述

比如:要查找绝对offset为7的Message:

  • 首先是用二分查找确定它是在哪个LogSegment中,自然是在第一个Segment中。
  • 打开这个Segment的index文件,用二分查找找到offset小于或者等于指定offset的索引条目中最大的那个offset。自然offset为6的那个索引是我们要找的,通过索引文件我们知道offset为6的Message在数据文件中的位置为9807。
  • 打开数据文件,从位置为9807的那个地方开始顺序扫描直到找到offset为7的那条Message。

该机制是建立在offset是有序的。索引文件被映射到内存中,所以查找的速度还是很快的。

Kafka的Message存储采用了分区(partition),分段(LogSegment)和稀疏索引来达到了查找的高效性。

参考链接:https://cloud.tencent.com/developer/article/1846773

http://www.lryc.cn/news/177240.html

相关文章:

  • 广告电商模式:探索新商业模式,实现三方共赢
  • 动态线程池框架DynamicTp v1.1.4大版本发布,新增若干实用特性
  • 无线通信——Mesh自组网的多跳性
  • QA 云计算实验问题汇总
  • VEX —— Functions|Groups
  • JavaSE18——接口
  • 杭州亚运会开幕式惊现数字人火炬手,动捕设备迸发动画制作新动能
  • ptmalloc源码分析 - malloc/free函数的实战篇(12)
  • 博弈论(奇偶考虑法)+计数+DP(判定转dp):CF838C
  • 郁金香2021年游戏辅助技术中级班(一)
  • 加密货币交易所偿付能力的零知识证明
  • 软考网络工程师防火墙配置考点总结
  • 【IDEA】idea恢复pom.xml文件显示灰色并带有删除线
  • Python数据分析之Excel
  • NISP证书是什么?NISP含金量如何呢?
  • 操作系统备考学习 day6(2.3.2 - 2.3.4)
  • 家电行业 EDI:Miele EDI 需求分析
  • Android ConstraintLayout app:layout_constraintHorizontal_weight
  • FPGA行业应用一:LED控制器
  • Pyspark读写csv,txt,json,xlsx,xml,avro等文件
  • LeetCode 接雨水 双指针
  • 【Linux】【网络】传输层协议:UDP
  • 数字音频工作站FL Studio 21中文版下载及电音编曲要用乐理吗 电音编曲步骤
  • 金蝶云星空与旺店通·企业奇门对接集成其他出库查询打通创建其他出库单
  • Visual Studio 如何删除多余的空行,仅保留一行空行
  • java spring cloud 企业电子招标采购系统源码:营造全面规范安全的电子招投标环境,促进招投标市场健康可持续发展
  • 112. 路径总和
  • 国货疯抢流量,B站接连爆发800万播放实现破圈
  • (高阶) Redis 7 第14讲 数据统计分析 实战篇
  • SpringCloud nacos1.x.x版本升级到2.2.3版本并开启鉴权踩坑