当前位置: 首页 > news >正文

MySQL数据库调优————ORDER BY语句

ORDER BY调优的核心原理,原则是利用索引的有序性跳过排序环节

关于ORDER BY语句的一些尝试

我们使用employees表进行尝试,索引情况如下
在这里插入图片描述
在执行计划的结果中,Extra里如果存在,Using filesort则表示,排序没有使用到索引。

explain
select *
from employees
order by first_name,last_name;

结果
在这里插入图片描述
并没有用到索引,发生了全表扫描

explain
select *
from employees
order by first_name,last_name
limit 10;

结果
在这里插入图片描述
这次的查询就用到了索引。为什么一次是ALL,一次是index呢?
因为第一次相当于对整张表进行排序的,排序是基于成本计算的,在优化器发现全表扫描开销更低时,会直接使用全表扫描。而第二次是仅仅对前10条数据进行排序,扫描索引的成本要小于扫面全表,所以用到了索引。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name = 'Bader'
order by last_name;

结果
在这里插入图片描述
这句SQL是用到了索引排序的,当执行查询时,查找出来的数据为[‘Bader’,last_name[i],emp_no],因为索引是有序的,'Bader’是确定的,那么数据已经按照last_name排好序了,就跳过了排序的环节。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name < 'Bader'
order by first_name;

结果
在这里插入图片描述
根据执行结果是使用了索引的,因为在执行查询语句时,查找出来的数据为[first_name,last_name,emp_no],这一部分数据已经是按照first_name排好序的,所以不需要再次进行排序了。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name = 'Bader'and last_name > 'Peng'
order by last_name;

结果
在这里插入图片描述
跟上面的同理,因为在执行查询语句时,查找出来的数据为[Bader,last_name[i],emp_no],这一部分数据已经是按照last_name排好序的,所以不需要再次进行排序了。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
order by first_name,emp_no limit 10;

结果
在这里插入图片描述
根据执行结果 ,该语句没有用到索引,因为两个排序字段存在于不同的两个索引中,会先按first_name进行排序,再将相同first_name的数据按照emp_no进行排序。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
order by first_name desc ,last_name asc limit 10;

结果
在这里插入图片描述
因为索引中的两个字段,在进行排序中的升降序不一致,所以无法使用索引。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name < 'Bader'
order by last_name limit 10;

结果
在这里插入图片描述
根据结果得知,在进行查询时使用了索引,但在排序时使用的是Using filesort。说明排序时没有用到索引。组合索引中part1范围查询,使用part2进行排序是无法使用索引排序的。

排序模式

Using filesort排序原理,目前MySQL使用了三种排序模式

模式一:rowid排序(常规排序)

排序过程

  1. 从表中获取满足where条件的数据。
  2. 对于每条记录,将记录的主键及排序字段(id,order_column)取出放入sort buffer(由sort_buffer_size控制大小)。
  3. 如果sort buffer能存放所有满足条件的(id,order_column),则进行排序;否则,当sort buffer存满后,会将sort buffer中的数据排序并存放到临时文件中。
    • 在没有产生临时文件时,在内存中使用快速排序算法
    • 如果产生了临时文件,则需要利用归并排序算法,从而保证记录有序
  4. 扫描排序好的(id,order_column)数据,并利用id去取select需要返回的其他字段。
  5. 返回结果集。

排序特点

  • 看sort buffer是否能存放查询出来的所有的结果集,如果不满足,就会差生临时文件
  • 一次排序需要两次IO
    • 第一次,把查询出来的(id,order_column)结果集放入sort buffer中;第二次,通过id去获取需要返回的其他字段。由于返回结果是按照order_column进行排序的,所以主键id是乱序的,会存在随机IO的问题。之前文中提到,在用主键id取值前,会按照主键id进行排序,并放入一个缓存中,该缓存大小是由read_rnd_buffer_size控制,接着再去取记录,从而把随机IO转换成顺序IO。

模式二:全字段排序(优化排序)

排序过程

跟第一种模式相比,有几点不同

  • 直接取出表中需要的所有字段,放到sort buffer种
  • 由于sort buffer已经包含了查询需要的所有的字段,因此sort buffer种排序完成后直接返回结果集

全字段排序 vs rowid排序

  • 优点:性能的提升,无需两次IO,因为全字段排序已经将需要的所有字段存储到了sort buffer种,无需再次用主键id去表中获取
  • 缺点:由于全字段排序会将需要的所有的字段放入sort buffer中,所以占用空间比较大,如果sort buffer不够大,那么很容易产生临时文件

排序算法的选择

  • max_length_for_sort_data:当OEDER BY中出现的字段的总长度小于该值,使用全字段排序,反之则使用rowid排序。

模式三:打包字段排序

  • MySQL5.7引入
  • 与模式二工作原理一致,不同点在于会将字段紧密的排列在一起,而不是固定长度的空间。
    • 例如:一个字段定义为VARCHAR(32),值为’yes’;在不打包的情况下占用32字节,打包的情况下2+3字节。

参数汇总

变量作用
sort_buffer_size指定sort buffer的大小
max_length_for_fort_data当ORDER BY中出现字段的总长度小于该值时使用全字段排序,反之使用rowid排序
read_rnd_buffer_size按照主键排序后存放的缓存区大小

使用optimizer_trace分析排序过程

explain展示的排序方式很有限,仅仅是Using filesort,如果我们想了解更多的细节就需要使用optimizer_trace进行分析了。
以下面语句为例:

select *
from employees
where first_name < 'Bader'
order by last_name;

执行

SET OPTIMIZER_TRACE="enabled=on",END_MARKERS_IN_JSON=on;
SET optimizer_trace_offset=-30,optimizer_trace_limit=30;

开启OPTIMIZER_TRACE,执行示例SQL语句,再次执行

select * from information_schema.OPTIMIZER_TRACE where QUERY like '%Bader%';

获取分析结果,将trace字段的内容复制出来进行分析;
我们主要关注的是filesort_summary,

“filesort_summary”: {
“memory_available”: 262144,
“key_size”: 265,
“row_size”: 399,
“max_rows_per_buffer”: 502,
“num_rows_estimate”: 927744,
“num_rows_found”: 22287,
“num_initial_chunks_spilled_to_disk”: 0,
“peak_memory_used”: 204314,
“sort_algorithm”: “std::sort”,
“unpacked_addon_fields”: “using_priority_queue”,
“sort_mode”: “<varlen_sort_key, additional_fields>”
}

其相关字段解读如下:

  • memory_available:可用内存,其实就是fort_buffer_size设置的值
  • num_rows_found:有多少条数据参与排序,越小越好
  • num_initial_chunks_spilled_to_disk:产生了几个临时文件,0表示完全基于内存排序
  • sort_mode
    • <varlen_sort_key,rowid>:使用了rowid排序模式
    • <varlen_sort_key, additional_fields>:使用了全字段排序模式
    • <varlen_sort_key, packed_additional_fields>:使用了打包字段排序模式

如何调优ORDER BY

  • 利用索引,防止filesort发生
  • 如果发生了filesort,且无法避免,就要对filesort进行优化

如何调优filesort

  • 调大sort_buffer_size,减少/避免临时文件的产生,从而进行的归并操作
    • 当optimizer_trace的结果中 num_initial_chunks_spilled_to_disk的值较大时,需要调整
    • show status like ‘%sort_merge_passes%’;查看发生归并操作的次数
  • 调大read_rnd_buffer_size,让一次顺序IO返回更多的结果
  • 设置合理的max_length_for_sort_data的值
http://www.lryc.cn/news/12809.html

相关文章:

  • Linux命令之grep
  • 一起学 pixijs(4):如何绘制文字md
  • mac m1设备上安装Qt并使用qt编程遇到的问题以及解决方式
  • tensorflow 学习笔记(二):神经网络的优化过程
  • 【Java】《Java8 实战》 CompletableFuture 学习
  • Vue3之条件渲染
  • 将Nginx 核心知识点扒了个底朝天(四)
  • 设计模式之工厂模式
  • 80.链表-由来
  • 元胞自动机
  • 设计模式之各种设计模式总结与对比
  • JAVA练习55- Fizz Buzz
  • LeetCode笔记:Biweekly Contest 98
  • HNUCM-《算法分析与设计》期末考试考前复习题
  • 算法导论【分治思想】—大数乘法、矩阵相乘、残缺棋盘
  • Java【七大排序】算法详细图解,一篇文章吃透
  • Autosar OS IOC
  • 记录一次Binder内存相关的问题导致APP被杀的BUG排查过程
  • 设计模式(十)----结构型模式之适配器模式
  • 【数据结构】——队列
  • Android OTA升级常见问题的解决方法
  • 说说Hibernate
  • 目标检测论文阅读:DETR算法笔记
  • Golang sync.Once 源码浅析
  • C++面向对象(上)
  • 经常用但是不知道什么是BFC?
  • GO的临时对象池sync.Pool
  • 高精度算法一
  • 2023年全国最新食品安全管理员精选真题及答案1
  • C++入门:引用