当前位置：首页 > news >正文

MySQL数据库调优————ORDER BY语句

news 2025/9/11 5:13:06

ORDER BY调优的核心原理，原则是利用索引的有序性跳过排序环节

关于ORDER BY语句的一些尝试

我们使用employees表进行尝试，索引情况如下
在这里插入图片描述
在执行计划的结果中，Extra里如果存在，Using filesort则表示，排序没有使用到索引。

explain
select *
from employees
order by first_name,last_name;

结果
在这里插入图片描述
并没有用到索引，发生了全表扫描

explain
select *
from employees
order by first_name,last_name
limit 10;

结果
在这里插入图片描述
这次的查询就用到了索引。为什么一次是ALL，一次是index呢？
因为第一次相当于对整张表进行排序的，排序是基于成本计算的，在优化器发现全表扫描开销更低时，会直接使用全表扫描。而第二次是仅仅对前10条数据进行排序，扫描索引的成本要小于扫面全表，所以用到了索引。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name = 'Bader'
order by last_name;

结果
在这里插入图片描述
这句SQL是用到了索引排序的，当执行查询时，查找出来的数据为[‘Bader’，last_name[i]，emp_no]，因为索引是有序的，'Bader’是确定的，那么数据已经按照last_name排好序了，就跳过了排序的环节。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name < 'Bader'
order by first_name;

结果
在这里插入图片描述
根据执行结果是使用了索引的，因为在执行查询语句时，查找出来的数据为[first_name，last_name，emp_no]，这一部分数据已经是按照first_name排好序的，所以不需要再次进行排序了。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name = 'Bader'and last_name > 'Peng'
order by last_name;

结果
在这里插入图片描述
跟上面的同理，因为在执行查询语句时，查找出来的数据为[Bader，last_name[i]，emp_no]，这一部分数据已经是按照last_name排好序的，所以不需要再次进行排序了。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
order by first_name,emp_no limit 10;

结果
在这里插入图片描述
根据执行结果，该语句没有用到索引，因为两个排序字段存在于不同的两个索引中，会先按first_name进行排序，再将相同first_name的数据按照emp_no进行排序。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
order by first_name desc ,last_name asc limit 10;

结果
在这里插入图片描述
因为索引中的两个字段，在进行排序中的升降序不一致，所以无法使用索引。
----------------------------------------------------------------------------------------------------------------->

explain
select *
from employees
where first_name < 'Bader'
order by last_name limit 10;

结果
在这里插入图片描述
根据结果得知，在进行查询时使用了索引，但在排序时使用的是Using filesort。说明排序时没有用到索引。组合索引中part1范围查询，使用part2进行排序是无法使用索引排序的。

排序模式

Using filesort排序原理，目前MySQL使用了三种排序模式

模式一：rowid排序（常规排序）

排序过程

从表中获取满足where条件的数据。
对于每条记录，将记录的主键及排序字段（id,order_column）取出放入sort buffer（由sort_buffer_size控制大小）。
如果sort buffer能存放所有满足条件的（id,order_column），则进行排序；否则，当sort buffer存满后，会将sort buffer中的数据排序并存放到临时文件中。
- 在没有产生临时文件时，在内存中使用快速排序算法
- 如果产生了临时文件，则需要利用归并排序算法，从而保证记录有序
扫描排序好的（id,order_column）数据，并利用id去取select需要返回的其他字段。
返回结果集。

排序特点

看sort buffer是否能存放查询出来的所有的结果集，如果不满足，就会差生临时文件
一次排序需要两次IO
- 第一次，把查询出来的（id,order_column）结果集放入sort buffer中；第二次，通过id去获取需要返回的其他字段。由于返回结果是按照order_column进行排序的，所以主键id是乱序的，会存在随机IO的问题。之前文中提到，在用主键id取值前，会按照主键id进行排序，并放入一个缓存中，该缓存大小是由read_rnd_buffer_size控制，接着再去取记录，从而把随机IO转换成顺序IO。

模式二：全字段排序（优化排序）

排序过程

跟第一种模式相比，有几点不同

直接取出表中需要的所有字段，放到sort buffer种
由于sort buffer已经包含了查询需要的所有的字段，因此sort buffer种排序完成后直接返回结果集

全字段排序 vs rowid排序

优点：性能的提升，无需两次IO，因为全字段排序已经将需要的所有字段存储到了sort buffer种，无需再次用主键id去表中获取
缺点：由于全字段排序会将需要的所有的字段放入sort buffer中，所以占用空间比较大，如果sort buffer不够大，那么很容易产生临时文件

排序算法的选择

max_length_for_sort_data：当OEDER BY中出现的字段的总长度小于该值，使用全字段排序，反之则使用rowid排序。

模式三：打包字段排序

MySQL5.7引入
与模式二工作原理一致，不同点在于会将字段紧密的排列在一起，而不是固定长度的空间。
- 例如：一个字段定义为VARCHAR(32)，值为’yes’；在不打包的情况下占用32字节，打包的情况下2+3字节。

参数汇总

变量	作用
sort_buffer_size	指定sort buffer的大小
max_length_for_fort_data	当ORDER BY中出现字段的总长度小于该值时使用全字段排序，反之使用rowid排序
read_rnd_buffer_size	按照主键排序后存放的缓存区大小

使用optimizer_trace分析排序过程

explain展示的排序方式很有限，仅仅是Using filesort，如果我们想了解更多的细节就需要使用optimizer_trace进行分析了。
以下面语句为例：

select *
from employees
where first_name < 'Bader'
order by last_name;

执行

SET OPTIMIZER_TRACE="enabled=on",END_MARKERS_IN_JSON=on;
SET optimizer_trace_offset=-30,optimizer_trace_limit=30;

开启OPTIMIZER_TRACE，执行示例SQL语句，再次执行

select * from information_schema.OPTIMIZER_TRACE where QUERY like '%Bader%';

获取分析结果，将trace字段的内容复制出来进行分析；
我们主要关注的是filesort_summary，

“filesort_summary”: {
“memory_available”: 262144,
“key_size”: 265,
“row_size”: 399,
“max_rows_per_buffer”: 502,
“num_rows_estimate”: 927744,
“num_rows_found”: 22287,
“num_initial_chunks_spilled_to_disk”: 0,
“peak_memory_used”: 204314,
“sort_algorithm”: “std::sort”,
“unpacked_addon_fields”: “using_priority_queue”,
“sort_mode”: “<varlen_sort_key, additional_fields>”
}

其相关字段解读如下：

memory_available：可用内存，其实就是fort_buffer_size设置的值
num_rows_found：有多少条数据参与排序，越小越好
num_initial_chunks_spilled_to_disk：产生了几个临时文件，0表示完全基于内存排序
sort_mode
- <varlen_sort_key,rowid>：使用了rowid排序模式
- <varlen_sort_key, additional_fields>：使用了全字段排序模式
- <varlen_sort_key, packed_additional_fields>：使用了打包字段排序模式

如何调优ORDER BY

利用索引，防止filesort发生
如果发生了filesort，且无法避免，就要对filesort进行优化

如何调优filesort

调大sort_buffer_size，减少/避免临时文件的产生，从而进行的归并操作
- 当optimizer_trace的结果中 num_initial_chunks_spilled_to_disk的值较大时，需要调整
- show status like ‘%sort_merge_passes%’;查看发生归并操作的次数
调大read_rnd_buffer_size，让一次顺序IO返回更多的结果
设置合理的max_length_for_sort_data的值

查看全文

http://www.lryc.cn/news/12809.html