MySQL 索引
索引
- 索引是一种用于快速查询和检查数据的数据结构,其本质可以看成是一种排好序的数据结构。
- 理解:索引的作用就相当于书的目录📚,可以根据目录快速定位到想要查看的位置。
- 常见的索引结构:B Tree、B+ Tree、Hash、红黑树。
- MyISAM 和 InnoDB 都使用 B+ Tree 作为索引结构。
索引的优缺点
- 优点
- 使用索引可以加快数据的检索速度(大大减少检索的数据量),这也是创建索引的最主要的原因。
- 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。
- 缺点
- 创建索引和维护索引需要耗费许多时间。当对表中的数据进行增删改的时候,如果数据有索引,那么索引也需要动态的修改,会降低 SQL 执行效率;
- 索引需要使用物理文件存储,也会耗费一定空间。
- 问:使用索引一定能提高查询性能吗?
- 大多数情况下,索引查询都是比全表扫描要快的。但是如果数据库的数据量不大,那么使用索引也不一定能够带来很大提升。
索引的底层数据结构
Hash 表
- 哈希表是键值对的集合,通过键 ( key ) 即可快速取出对应的值 ( value ),因此哈希表可以快速检索数据 O(1);
- 为何能够通过 key 快速取出 value 呢?
-
原因在于哈希算法 ( 散列算法 )。通过哈希算法,我们可以快速找到 key 对应的 index,找到了 index 也就找到了对应的 value。
hash = hashfunc(key) index = hash % array_size
-
But,哈希算法有 Hash 冲突 问题,也就是说多个不同的 key 最后得到的 index 相同。
-
通常情况下,我们常用的解决办法是 链地址法。
-
链地址法就是将哈希冲突数据存放在链表中。JDK 1.8 之前用 HashMap 解决哈希冲突;JDK 1.8 之后引入了红黑树 ( HashMap 为了解决链表过长的时候搜索时间过长 )
-
为了减少 Hash 冲突的发生,一个好的哈希函数应该 “均匀地” 将数据分布在整个可能得哈希值集合中。
-
既然 Hash 表这么快,为什么 MySQL 没有使用其作为索引的数据结构呢?
- 主要是因为 Hash 索引不支持顺序和范围查询;并且,每次 IO 只能取一个。
-
-
B Tree & B+ Tree
- B Tree 也称为 B- Tree,全称为 多路平衡查找树,B+ Tree 是 B Tree 的一种变体。( 字母 B 是 Balanced “平衡” 的意思)
- 目前大部分数据库系统及文件系统都采用 B- Tree 或其变种 B+ Tree 作为索引结构。
- 问:B Tree & B+ Tree 两者有何异同?
- B Tree 的所有节点既存放键 ( key ) 也存放数据 ( data );而 B+ Tree 只有叶子节点存放 key 和 data,其它内节点只存放 key。
- B Tree 的叶子节点都是独立的;B+ Tree 的叶子节点有一条引用链指向与它相邻的叶子节点。
- B Tree 的检索过程相当于对范围内的每个节点的关键字做二分查找,可能还没有到达叶子节点,检索就结束了;B+ Tree 的检索效率就很稳定,任何查找都是从根节点到叶子节点的过程,叶子节点的顺序检索很明显。
索引类型
主键索引 ( Primary Key )
- 数据表的主键列使用的就是主键索引;
- 一张数据表有且仅有一个主键,并且主键不能为 null,不能重复;
- 在 MySQL 的InnoDB 的表中,当没有显式的指定表的主键时,InnoDB 会自动检查表中是否有唯一索引且不允许存在 null 值的字段,如果有,则选择该字段为默认的主键,否则 InnoDB 将会自动创建一个 6 byte 的自增主键。
二级索引 ( 辅助索引 )
- 二级索引的叶子节点存储的数据是主键。也就是说,通过二级索引,可以定位主键的位置。
- 以下都属于二级索引 👇👇👇
- 唯一索引 ( Unique Key ) :唯一索引的属性列不能出现重复的数据,但是允许数据为 null,一张表允许创建多个唯一索引。目的 → 该属性列的唯一性,而不是查询效率
- 普通索引 ( Index ) :Index 的唯一作用是为了快速查询数据,一张表允许创建多个普通索引,并允许数据重复和 null。
- 前缀索引 ( Prefix ) :只适用于字符串类型的数据。前缀索引是对文本的前几个字符创建索引,相比普通索引创建的数据更小,因为只取前几个字符。
- 全文索引 ( Full Text ) :主要是为了检索大文本数据中的关键字的信息,是目前搜索引擎数据库使用的一种技术。MySQL 5.6 之后,InnoDB 支持全文索引。