MySQL中如何优化order by语句

更新时间：2023年01月12日 14:57:11 作者：一个双子座的Java攻城狮

本文主要介绍了MySQL中如何优化order by语句，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

order by 查询语句使用也是非常频繁，有时候数据量大了会发现排序查询很慢，本文就介绍一下 MySQL 是如何进行排序的，以及如何利用其原理来优化 order by 语句。

建立一张表：

CREATE TABLE `cc4` (
  `id` INT(11) NOT NULL,
  `user_name` VARCHAR(16) NOT NULL,
  `job` VARCHAR(16) NOT NULL,
  `company` VARCHAR(16) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `company_index` (`company`)
) ENGINE=INNODB;

建完表之后，再创建一个脚本，在脚本中插入 2000 条数据到前面建好的表cc4 中：

DROP PROCEDURE IF EXISTS cc4_data;
DELIMITER ;;
CREATE PROCEDURE cc4_data()
BEGIN
  DECLARE i INT;
  DECLARE company VARCHAR(128);
  SET i=1;
  WHILE(i<=2000) DO
    IF i%6 = 0
      THEN SET company= '证券';
    ELSEIF i%6 = 1
      THEN SET company= '银行';
    ELSEIF i%6 = 2
      THEN SET company= '保险';
    ELSEIF i%6 = 3
      THEN SET company= '科技';
    ELSEIF i%6 = 4
      THEN SET company= '金融';
    ELSE
      SET company ='传统';
    END IF;
    INSERT INTO cc4 VALUES(i, CONCAT('孤狼',i), CONCAT('程序员',i),company);
    SET i=i+1;
  END WHILE;
END;;
DELIMITER ;
CALL cc4_data();

这时候我们如果想要对某一家公司里面的人按照名字进行排序，一般会这么写：

SELECT user_name,job,company FROM cc4 WHERE company='科技' ORDER BY user_name LIMIT 1000;

这是一条非常简单且常见的 sql 语句，但是就是这么简单的一条 sql，它到底是如何被执行的呢？

全字段排序法

首先我们对上面的语句执行 explain 语句，看看是怎么执行的：

explain SELECT user_name,job,company FROM cc4 WHERE company='科技' ORDER BY user_name LIMIT 1000;

在这里插入图片描述

可以看到，在最后一列 Extra 中显示 Using filesort，也就是说用到了文件排序，这个文件排序是如何执行的呢？

大概画出如下一个草图表示表 cc4 中的索引示意图：

在这里插入图片描述

上图中显示 company 字段为普通索引，再加上主键索引，这张表一共有两个索引，所以这条语句是这么执行的：

初始化 sort_buffer，并确定好需要放入 user_name ，job，company 这三个字段。
从 company 索引中找到第一个满足 company='科技’ 条件的主键 id，也就是上图中的 ID-3。
然后执行回表操作，根据 id 值到主键索引中取出整行，然后取出 user_name ，job，company 三个字段的值，并存入sort_buffer 中。
从 company 索引中取下一个满足条件记录的主键 id，重复步骤 3 。
继续重复步骤 4 和 3，直到 company 的值不满足查询条件为止。
对 sort_buffer 中的数据按照字段 user_name 做快速排序，最后按照排序结果取前 1000 行返回给客户端。

这种排序方式称之为全字段排序法。

上面步骤中的第 6 步，排序可以在内存中进行，如果内存足够的话，而内存是否足够则取决于 sort_buffer_size 的值，但是我们想一下，如果排序的数据量太大，我们不可能提供足够的内存，那么这时候就不得不使用磁盘的临时文件来进行排序。

那么我们如何知道当前的排序语句是使用文件完成排序还是使用内存来完成排序呢？

接下来我们执行下面两句话：

SET optimizer_trace='enabled=on';-- 打开optimizer_trace，只对本线程有效
SELECT user_name,job,company FROM cc4 WHERE company='科技' ORDER BY user_name LIMIT 1000;
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G -- 查看 OPTIMIZER_TRACE 输出

最后这条查询语句会返回非常多的信息，包括了具体的查询步骤，我们看到最后的 filesort_summary：

在这里插入图片描述

这里面有几个信息比较关键：

memory_available：表示当前可以用于排序的内存
num_rows_found：表示有多少条数据参与排序。
num_initial_chunks_spilled_to_disk：表示产生了多少个临时文件用于排序，0表示当前是全部采用内存排序，这里为什么会产生多个文件的原因是当数据量过大时，MySQL会分散到多个文件进行处理，最后通过归并排序算法来完成完整的排序。
sort_mode：最后这一列代表当前排序模式，packed_additional_fields代表的就是采用了全字段排序法，而且启用了 pack。

接下来我们把默认的排序内存改小一点：

SET sort_buffer_size=32768; -- 8.0 版本最小值，无法设置成更小，不同版本之间有差异
show variables like 'sort_buffer_size';

执行之后可以看到排序大小已经被修改为 32k：

在这里插入图片描述

接下来我们再来执行排序查询跟踪

SELECT user_name,job,company FROM cc4 WHERE company='科技' ORDER BY user_name LIMIT 1000;
SELECT * FROM `information_schema`.`OPTIMIZER_TRACE`\G -- 查看 OPTIMIZER_TRACE 输出

这时候会发现这时候使用到了 6 个临时文件进行排序：

在这里插入图片描述

主键排序法

在前面的全字段排序法中其实有些浪费，因为排序只用到了 user_name 字段，而我们却同时查询了其他字段，这些字段查询出来都是会占用空间的，尤其是当查询的字段很多，或者有些字段又特别长的时候，会占用很大空间，导致不得不使用文件排序，而由于字段多又长，就会造成文件个数增多，从而导致排序性能会更差。

上面的查询语句中，我们有没有办法不把一些无用的字段也放到 sort_buffer 中呢？

在 MySQL 中提供了一个字段 max_length_for_sort_data，默认是 4096

show variables like 'max_length_for_sort_data';

这个字段是控制用于排序的行数据的长度的一个参数。如果用于排序的单行数据长度超过这个值，MySQL 就认为单行数据太大了，要换一个算法，采用 rowid 算法。

采用 rowid 算法的步骤如下：

初始化 sort_buffer，并确定好需要放入 user_name ，id 这两个字段。
从 company 索引中找到第一个满足 company='科技’ 条件的主键 id，也就是上图中的 ID-3。
然后执行回表操作，根据 id 值到主键索引中查找出整行数据，然后取出 user_name ，id 这两个字段的值，并存入sort_buffer 中。
从 company 索引中取下一个满足条件记录的主键 id，重复步骤 3 。
继续重复步骤 4 和 3，直到 company 的值不满足查询条件为止。
对 sort_buffer 中的数据按照字段 user_name 做快速排序。
遍历排序结果，取前 1000 行数据，并根据主键 id 进行回表查询，取出 user_name，job 和 company三个字段返回给客户端。

这种排序方式对比前面一种全字段排序，我们发现存的数据更少了，所以需要的内存空间更少，但是又有一个更大的问题就是这里需要进行两次回表操作，当数据量过大，这也会造成性能影响。

所以我们再结合前面学习的知识，如果排序的时候可以采用覆盖索引，那么就不需要进行回表操作，从而大幅度提升性能，这也是覆盖索引的威力。

如何避免 filesort

首先我们看下面一个例子，执行以下语句：

DROP INDEX company_index ON cc4;-- 删除索引
CREATE INDEX company_user_index ON cc4 (company,user_name);-- 创建联合索引
explain SELECT user_name,job,company FROM cc4 WHERE company='科技' ORDER BY user_name LIMIT 1000;

执行结果如下：

在这里插入图片描述

可以看到，这次就没有用到 filesort 了，这是为什么呢？

因为我们创建了一个联合索引，而 MySQL 中的 B+ 树索引是天然有序的，所以当指定了 company，按顺序找到的数据，就是按照 user_name 进行的排序，也就不需要再执行一次排序操作了。

到此这篇关于MySQL中如何优化order by语句的文章就介绍到这了,更多相关MySQL优化order by内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

mysql如何查询两个日期之间最大的连续登录天数
在现在的很多网站中都有这样一个功能。记录用户的连续登陆天数，所谓的连续在线是指相邻两天都登录过，不一定一直在线，但是只要有过登录即可。这篇文章主要介绍的是利用sql语句如何查询在两个日期之间最大的连续登录天数，有需要的朋友们下面来一起看看吧。
2016-10-10
MySQL8.0升级的踩坑历险记
听说mysql8的性能提升了很多,对于我这种喜欢把所有软件升级到最新版的人来说,二话不说直接升级,这篇文章主要给大家介绍了关于MySQL8.0升级踩坑的相关资料,需要的朋友可以参考下
2021-10-10
一条sql语句完成MySQL去重留一
在使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。
2017-12-12
mysql 使用存储过程实现树节点的获取方法
这篇文章主要介绍了mysql 使用存储过程实现树节点的获取方法，本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2020-06-06
MySQL执行.sql 文件的超详细教学指南
和其他数据库一样,MySQL也提供了命令执行sql脚本文件,方便地进行数据库、表以及数据等各种操作,这篇文章主要给大家介绍了关于MySQL执行.sql 文件的超详细教学指南,需要的朋友可以参考下
2024-07-07
MySQL分区表的基本入门教程
这篇文章主要给大家介绍了关于MySQL分区表的基本入门教程，文中通过示例代码介绍的非常详细，对大家学习或者使用MySQL具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
2020-05-05
详解MySQL8.0 字典表增强
这篇文章主要介绍了MySQL8.0 字典表增强的相关资料，帮助大家更好的理解和学习MySQL，感兴趣的朋友可以了解下
2020-08-08
MySQL必备的常见知识点汇总整理
这篇文章主要介绍了MySQL必备的常见知识点,结合实例形式汇总整理了mysql各种常见知识点,包括登录、退出、创建、增删改查、事务等知识点与操作注意事项,需要的朋友可以参考下
2020-05-05
MySQL和Python交互的示例
这篇文章主要介绍了MySQL和Python交互的示例，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-03-03
高级MySQL数据库面试问题附答案
绝对精彩的文章，11个高级MySQL数据库面试问题，每个问题都给出了具体答案，感兴趣的小伙伴们可以参考一下
2016-07-07

MySQL中如何优化order by语句

全字段排序法

主键排序法

如何避免 filesort

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具