MySQL分组查询Group By实现原理详解

 更新时间:2016年05月29日 23:41:07   投稿:mdxy-dxy  
在MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析

由于GROUP BY 实际上也同样会进行排序操作,而且与ORDER BY 相比,GROUP BY 主要只是多了排序之后的分组操作。当然,如果在分组的时候还使用了其他的一些聚合函数,那么还需要一些聚合函数的计算。所以,在GROUP BY 的实现过程中,与 ORDER BY 一样也可以利用到索引。

  在MySQL 中,GROUP BY 的实现同样有多种(三种)方式,其中有两种方式会利用现有的索引信息来完成 GROUP BY,另外一种为完全无法使用索引的场景下使用。下面我们分别针对这三种实现方式做一个分析。

  1、使用松散(Loose)索引扫描实现 GROUP BY

  何谓松散索引扫描实现 GROUP BY 呢?实际上就是当 MySQL 完全利用索引扫描来实现 GROUP BY 的时候,并不需要扫描所有满足条件的索引键即可完成操作得出结果。

  下面我们通过一个示例来描述松散索引扫描实现 GROUP BY,在示例之前我们需要首先调整一下 group_message 表的索引,将 gmt_create 字段添加到 group_id 和 user_id 字段的索引中:

sky@localhost: example 08:49:45> create index idx_gid_uid_gc
 -> on group_message(group_id,user_id,gmt_create);
 Query OK, rows affected (0.03 sec)
 Records: 96 Duplicates: 0 Warnings: 0
sky@localhost: example 09:07:30> drop index idx_group_message_gid_uid
 -> on group_message;
 Query OK, 96 rows affected (0.02 sec)
 Records: 96 Duplicates: 0 Warnings: 0

然后再看如下 Query 的执行计划:

sky@localhost: example 09:26:15> EXPLAIN
 -> SELECT user_id,max(gmt_create)
 -> FROM group_message
 -> WHERE group_id < 10
 -> GROUP BY group_id,user_id\G
 *************************** 1. row ***************************
 id: 1
 select_type: SIMPLE
 table: group_message
 type: range
 possible_keys: idx_gid_uid_gc
 key: idx_gid_uid_gc
 key_len: 8
 ref: NULL
 rows: 4
 Extra: Using where; Using index for group-by

我们看到在执行计划的 Extra 信息中有信息显示“Using index for group-by”,实际上这就是告诉我们,MySQL Query Optimizer 通过使用松散索引扫描来实现了我们所需要的 GROUP BY 操作。

下面这张图片描绘了扫描过程的大概实现:

要利用到松散索引扫描实现 GROUP BY,需要至少满足以下几个条件:

◆GROUP BY 条件字段必须在同一个索引中最前面的连续位置;
◆在使用GROUP BY 的同时,只能使用 MAX 和 MIN 这两个聚合函数;
◆如果引用到了该索引中 GROUP BY 条件之外的字段条件的时候,必须以常量形式存在;

为什么松散索引扫描的效率会很高?

因为在没有WHERE子句,也就是必须经过全索引扫描的时候, 松散索引扫描需要读取的键值数量与分组的组数量一样多,也就是说比实际存在的键值数目要少很多。而在WHERE子句包含范围判断式或者等值表达式的时候, 松散索引扫描查找满足范围条件的每个组的第1个关键字,并且再次读取尽可能最少数量的关键字。

2.使用紧凑(Tight)索引扫描实现 GROUP BY

紧凑索引扫描实现 GROUP BY 和松散索引扫描的区别主要在于他需要在扫描索引的时候,读取所有满足条件的索引键,然后再根据读取恶的数据来完成 GROUP BY 操作得到相应结果。

  sky@localhost : example 08:55:14> EXPLAIN
 -> SELECT max(gmt_create)
 -> FROM group_message
 -> WHERE group_id = 2
 -> GROUP BY user_id\G
 *************************** 1. row ***************************
 id: 1
 select_type: SIMPLE
 table: group_message
 type: ref
 possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
 key: idx_gid_uid_gc
 key_len: 4
 ref: const
 rows: 4
 Extra: Using where; Using index
 1 row in set (0.01 sec)

这时候的执行计划的 Extra 信息中已经没有“Using index for group-by”了,但并不是说 MySQL 的 GROUP BY 操作并不是通过索引完成的,只不过是需要访问 WHERE 条件所限定的所有索引键信息之后才能得出结果。这就是通过紧凑索引扫描来实现 GROUP BY 的执行计划输出信息。
下面这张图片展示了大概的整个执行过程:

在 MySQL 中,MySQL Query Optimizer 首先会选择尝试通过松散索引扫描来实现 GROUP BY 操作,当发现某些情况无法满足松散索引扫描实现 GROUP BY 的要求之后,才会尝试通过紧凑索引扫描来实现。

当 GROUP BY 条件字段并不连续或者不是索引前缀部分的时候,MySQL Query Optimizer 无法使用松散索引扫描,设置无法直接通过索引完成 GROUP BY 操作,因为缺失的索引键信息无法得到。但是,如果 Query 语句中存在一个常量值来引用缺失的索引键,则可以使用紧凑索引扫描完成 GROUP BY 操作,因为常量填充了搜索关键字中的“差距”,可以形成完整的索引前缀。这些索引前缀可以用于索引查找。而如果需要排序GROUP BY结果,并且能够形成索引前缀的搜索关键字,MySQL还可以避免额外的排序操作,因为使用有顺序的索引的前缀进行搜索已经按顺序检索到了所有关键字。

3.使用临时表实现 GROUP BY

MySQL 在进行 GROUP BY 操作的时候要想利用所有,必须满足 GROUP BY 的字段必须同时存放于同一个索引中,且该索引是一个有序索引(如 Hash 索引就不能满足要求)。而且,并不只是如此,是否能够利用索引来实现 GROUP BY 还与使用的聚合函数也有关系。

前面两种 GROUP BY 的实现方式都是在有可以利用的索引的时候使用的,当 MySQL Query Optimizer 无法找到合适的索引可以利用的时候,就不得不先读取需要的数据,然后通过临时表来完成 GROUP BY 操作。

 sky@localhost : example 09:02:40> EXPLAIN
 -> SELECT max(gmt_create)
 -> FROM group_message
 -> WHERE group_id > 1 and group_id < 10
 -> GROUP BY user_id\G
 *************************** 1. row ***************************
 id: 1
 select_type: SIMPLE
 table: group_message
 type: range
 possible_keys: idx_group_message_gid_uid,idx_gid_uid_gc
 key: idx_gid_uid_gc
 key_len: 4
 ref: NULL
 rows: 32
 Extra: Using where; Using index; Using temporary; Using filesort

这次的执行计划非常明显的告诉我们 MySQL 通过索引找到了我们需要的数据,然后创建了临时表,又进行了排序操作,才得到我们需要的 GROUP BY 结果。整个执行过程大概如下图所展示:

当 MySQL Query Optimizer 发现仅仅通过索引扫描并不能直接得到 GROUP BY 的结果之后,他就不得不选择通过使用临时表然后再排序的方式来实现 GROUP BY了。

在这样示例中即是这样的情况。 group_id 并不是一个常量条件,而是一个范围,而且 GROUP BY 字段为 user_id。所以 MySQL 无法根据索引的顺序来帮助 GROUP BY 的实现,只能先通过索引范围扫描得到需要的数据,然后将数据存入临时表,然后再进行排序和分组操作来完成 GROUP BY。

相关文章

  • mysql insert的几点操作(DELAYED,IGNORE,ON DUPLICATE KEY UPDATE )

    mysql insert的几点操作(DELAYED,IGNORE,ON DUPLICATE KEY UPDATE )

    DELAYED 做为快速插入,并不是很关心失效性,提高插入性能。
    2010-04-04
  • MySQL服务器的启动和关闭

    MySQL服务器的启动和关闭

    作为MySQL管理员,一个普通的目标就是确保服务器尽可能地处于运行状态,使得客户机能够随时访问它。但是,有时最好关闭服务器(例如,如果正在进行数据库的重定位,不希望服务器在该数据库中更新表)。保持服务器运行和偶尔关闭它的需求关系不是本书所解 决的。但是我们至少可以讨论如何使服务器启动和停止,以便您具备进行这两个操作的能力。
    2008-04-04
  • Mysql虚拟列的实现示例

    Mysql虚拟列的实现示例

    MySQL虚拟列是一种特殊的列,是mysql-5.7版本引入的一个新特性,本文主要介绍了Mysql虚拟列的实现示例,具有一定的参考价值,感兴趣的可以了解一下
    2024-08-08
  • Mysql教程分组排名实现示例详解

    Mysql教程分组排名实现示例详解

    这篇文章主要为大家介绍了Mysql数据库分组排名实现的示例详解教程,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步
    2021-10-10
  • Mysql内连接与外连接的区别详解

    Mysql内连接与外连接的区别详解

    最近别人问我一个问题:数据库中的左连接和右连接有什么区别?所以这篇文章主要给大家介绍了关于Mysql内连接和外连接区别的相关资料,需要的朋友可以参考下
    2023-01-01
  • Centos6.5在线安装mysql 8.0详细教程

    Centos6.5在线安装mysql 8.0详细教程

    这篇文章主要为大家介绍了Centos6.5在线安装 mysql 8.0详细教程,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-11-11
  • MySQL连接器提升应用功能与数据存储能力

    MySQL连接器提升应用功能与数据存储能力

    这篇文章主要为大家介绍了MySQL连接器提升应用功能与数据存储能力,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-10-10
  • MySQL之索引结构解读

    MySQL之索引结构解读

    这篇文章主要介绍了MySQL之索引结构解读,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-04-04
  • MySQL 的模块不能安装的解决方法

    MySQL 的模块不能安装的解决方法

    这篇文章主要介绍了MySQL 的模块不能安装的解决方法的相关资料,需要的朋友可以参考下
    2015-07-07
  • win10下安装mysql8.0.23 及 “服务没有响应控制功能”问题解决办法

    win10下安装mysql8.0.23 及 “服务没有响应控制功能”问题解决办法

    这篇文章主要介绍了win10下安装mysql8.0.23 及 “服务没有响应控制功能”问题解决办法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2021-03-03

最新评论