当前位置: 首页 > news >正文

笔记,B+树

B+树面对的场景,是一个有10亿行的表,希望某一列是有序的。这么大的数据量,内存里放不下,需要放在硬盘里。结果,原本运行于内存的二叉树,就升级为B+树了。

在二叉树中,每个节点存储着一个数字,通过比大小,产生两个分叉,所以叫二叉树。在B+树中,比如说,每个节点储存999个数字,它能产生1000个分叉,对应地有1000个硬盘指针储存在节点中。

B+树的第一层是一个根节点,放在内存里。其中999个数字连续存储,通过二分查找法,快速地找出目标数字位于哪个区间,它对应一个硬盘指针。然后,从硬盘上读取对应的那个第二层中的节点,进入内存。继续查找,找到第三层、第四层节点。例如,第四层节点是叶子结点,则它的指针指向最终的数据。

B+树仅在叶子结点存储数据,在非叶子结点存储索引。

“最终的数据”可以是记录的地址。一个表中的10亿条记录,按照添加时的顺序存储,需要按照某一列保持有序时,以B+树做索引,10亿个有序的硬盘指针指向10亿个乱序的记录。有可能表有多列,并有多个B+树索引为这一个表服务。

一个四层的1000叉树,有1000的三次方个叶子节点,即,10亿条记录。多数情况下,这足够多了。通过3次硬盘操作就能在10亿条记录中找到一个,这是二叉树做不到的。计算以2为底的10亿的对数,得29.90,要进行约30次硬盘操作,才能找到。所以,二叉树是内存里的数据结构,而B+树是为硬盘设计的。

另外,叶子节点构成双链表,方便进行范围查询,即查询某列大于a,小于b的所有记录。如果不是因为有范围查询的要求,用哈希表更快。

以上是B+树的一般形态,一个有10亿行的表的某列,需要做有序索引。一般来说,那一列是个数字,可如果是字符串呢,且长度不确定,B+树的节点中要储存999个字符串吗?如果一个数字有8字节,而一个字符串平均100字节,节点中可能存不下999个字符串,或是存下了,但节点变长。

B+树的一般形态,节点长度是确定的,如16KB。如果节点长度可变,那会是种什么情形?另外,向B+树添加、删除数据时,会引起树的不平衡,需要专门的应对策略。

如果把硬盘指针换成网络指针,B+树能否成为分布式数据库的索引呢?一个网络指针的设计方案:2字节计算机编号+6字节硬盘地址。它可以管理65536台计算机,每台计算机有256TB存储。

总结:B+树是应用于硬盘的数据结构,常为数据库和文件系统服务。通过增加树的分叉数,降低树的高度,从而减少存储器的访问次数,有提速效果。

http://www.lryc.cn/news/249951.html

相关文章:

  • 代码随想录刷题题Day2
  • 【JAVA面向对象编程】--- 探索子类如何继承父类
  • 从浏览器控制台发送get,post请求
  • 海外问卷调查怎么批量做?可以用指纹浏览器吗?
  • HarmonyOS 位置服务开发指南
  • ThinkPHP6学生选课管理系统
  • uniapp如何与原生应用进行混合开发?
  • Csharp(C#)无标题栏窗体拖动代码
  • 李宏毅2020机器学习课程笔记(二)- 深度学习
  • 解决电脑蓝屏问题:SYSTEM_THREAD_EXCEPTION_NOT_HANDLED,回到系统还原点
  • connectivity_plus 安卓build的时候报错
  • 系统部署安装-Centos7-Kafka
  • 94.STM32外部中断
  • 【Linux】快速上手自动化构建工具make/makefile
  • HarmonyOS
  • Docker安装Oracle18c 坑已排完,放心食用
  • 2023年第十二届数学建模国际赛小美赛C题雪崩防范求解分析
  • Nginx Openresty通过Lua+Redis 实现动态封禁IP
  • .Net 字符集与编解码
  • Spinnaker 基于 jenkins 触发部署
  • FLASK博客系列6——数据库之谜
  • Clickhouse UPDATE 和 DELETE操作
  • golang channel执行原理与代码分析
  • OpenCvSharp从入门到实践-(04)色彩空间
  • 100.有序数组的平方(力扣)
  • 微服务--01--简介、服务拆分原则
  • IntelliJ IDEA安装使用教程
  • 校园门禁可视化系统解决方案
  • rest_framework_django学习笔记一(序列化器)
  • 面试题:什么是负载均衡?常见的负载均衡策略有哪些?