mysql DISTINCT 的实现与优化

DISTINCT实际上和GROUP
BY的操作非常相似，只不过是在GROUP BY之后的每组中只取出一条记录而已。所以，DISTINCT的实现和GROUP
BY的实现也基本差不多，没有太大的区别。同样可以通过松散索引扫描或者是紧凑索引扫描来实现，当然，在无法仅仅使用索引即能完成DISTINCT的时候，MySQL只能通过临时表来完成。但是，和GROUP
BY有一点差别的是，DISTINCT并不需要进行排序。也就是说，在仅仅只是DISTINCT操作的Query如果无法仅仅利用索引完成操作的时候，MySQL会利用临时表来做一次数据的“缓存”，但是不会对临时表中的数据进行filesort操作。当然，如果我们在进行DISTINCT的时候还使用了GROUP
BY并进行了分组，并使用了类似于MAX之类的聚合函数操作，就无法避免filesort了。

下面我们就通过几个简单的Query示例来展示一下DISTINCT的实现。

1.首先看看通过松散索引扫描完成DISTINCT的操作：

sky@localhost:
example >EXPLAIN
SELECT DISTINCT group_id

->
FROM group_message\G

***************************1.
row ***************************

id:
1SELECT_type:SIMPLE

table:group_message

type:range

possible_keys:NULL

key:
idx_gid_uid_gc

key_len:4ref:
NULL

rows:10Extra:
Using index
for group-by

1
row
in set (0.00sec)

我们可以很清晰的看到，执行计划中的Extra信息为“Usingindex
for group-by”，这代表什么意思？为什么我没有进行GROUP
BY操作的时候，执行计划中会告诉我这里通过索引进行了GROUP BY呢？其实这就是于DISTINCT的实现原理相关的，在实现DISTINCT的过程中，同样也是需要分组的，然后再从每组数据中取出一条返回给客户端。而这里的Extra信息就告诉我们，MySQL利用松散索引扫描就完成了整个操作。当然，如果MySQLQuery
Optimizer要是能够做的再人性化一点将这里的信息换成“Using
index for distinct”那就更好更容易让人理解了，呵呵。

2.
我们再来看看通过紧凑索引扫描的示例：

sky@localhost: example
11:03:53>
EXPLAIN SELECT DISTINCT user_id

->FROM group_message

->WHERE group_id =
2\G

***************************1.
row ***************************

id:1SELECT_type:
SIMPLE

table:group_message

type:ref

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
const

rows:4Extra:
Using WHERE; Using index

1row
in set (0.00
sec)

这里的显示和通过紧凑索引扫描实现GROUP BY也完全一样。实际上，这个Query的实现过程中，MySQL会让存储引擎扫描group_id=2的所有索引键，得出所有的user_id，然后利用索引的已排序特性，每更换一个user_id的索引键值的时候保留一条信息，即可在扫描完所有gruop_id=2的索引键的时候完成整个DISTINCT操作。

3.下面我们在看看无法单独使用索引即可完成DISTINCT的时候会是怎样：

sky@localhost: example
11:04:40>
EXPLAIN SELECT DISTINCT user_id

->FROM group_message

->WHERE group_id >
1 AND group_id <
10\G

***************************1.
row ***************************

id:1SELECT_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
NULL

rows:32Extra:
Using WHERE; Using index; Using temporary

1row
in set (0.00
sec)

当MySQL无法仅仅依赖索引即可完成DISTINCT操作的时候，就不得不使用临时表来进行相应的操作了。但是我们可以看到，在MySQL利用临时表来完成DISTINCT的时候，和处理GROUP
BY有一点区别，就是少了filesort。实际上，在MySQL的分组算法中，并不一定非要排序才能完成分组操作的，这一点在上面的GROUP
BY优化小技巧中我已经提到过了。实际上这里MySQL正是在没有排序的情况下实现分组最后完成DISTINCT操作的，所以少了filesort这个排序操作。

4.最后再和GROUP
BY结合试试看：

sky@localhost: example
11:05:06>
EXPLAIN SELECT DISTINCT max(user_id)

->FROM group_message

->WHERE group_id >
1 AND group_id <
10

->GROUP BY group_id\G

***************************1.
row ***************************

id:1SELECT_type:
SIMPLE

table:group_message

type:range

possible_keys:idx_gid_uid_gc

key:idx_gid_uid_gc

key_len:4ref:
NULL

rows:32Extra:
Using WHERE; Using index; Using temporary; Usingfilesort

1row
in set (0.00
sec)

最后我们再看一下这个和GROUP BY一起使用带有聚合函数的示例，和上面第三个示例相比，可以看到已经多了filesort排序操作了，因为我们使用了MAX函数的缘故。

对于DISTINCT的优化，和GROUP
BY基本上一致的思路，关键在于利用好索引，在无法利用索引的时候，确保尽量不要在大结果集上面进行DISTINCT操作，磁盘上面的IO操作和内存中的IO操作性能完全不是一个数量级的差距。

mysql DISTINCT 的实现与优化的更多相关文章

mysql distinct 用法详解及优化
本事例实验用表task,结构如下 MySQL> desc task; +-------------+------------+------+-----+-------------------+- ...
MySql in子句效率低下优化
MySql in子句效率低下优化背景: 更新一张表中的某些记录值,更新条件来自另一张含有200多万记录的表,效率极其低下,耗时高达几分钟. where resid in ( ); 耗时 365s ...
MySQL有关Group By的优化
昨天我写了有关MySQL的loose index scan的相关博文(http://www.cnblogs.com/wingsless/p/5037625.html),后来我发现上次提到的那个优化方法 ...
mysql笔记03 查询性能优化
查询性能优化 1. 为什么查询速度会慢? 1). 如果把查询看作是一个任务,那么它由一系列子任务组成,每个子任务都会消耗一定的时间.如果要优化查询,实际上要优化其子任务,要么消除其中一些子任务,要么减 ...
MySql学习(七) —— 查询性能优化深入理解MySql如何执行查询
本篇深入了解查询优化和服务器的内部机制,了解MySql如何执行特定查询,从中也可以知道如何更改查询执行计划,当我们深入理解MySql如何真正地执行查询,明白高效和低效的真正含义,在实际应用中就能扬长避 ...
MySql in子句效率低下优化（亲测有效，从200秒变1秒）
MySql in子句效率低下优化背景: 更新一张表中的某些记录值,更新条件来自另一张含有200多万记录的表,效率极其低下,耗时高达几分钟. update clear_res set candele ...
php面试专题---Mysql索引原理及SQL优化
php面试专题---Mysql索引原理及SQL优化一.总结一句话总结: 注意:只写精品 1.为表设置索引要付出代价是什么? 存储空间:一是增加了数据库的存储空间修改插入变动索引时间:二是在插入 ...
MySQL数据库基础知识及优化
MySQL数据库基础知识及优化必会的知识点,你掌握了多少? 推荐阅读: 这些必会的计算机网络知识点你都掌握了吗关于数据库事务和锁的必会知识点,你掌握了多少? 关于数据库索引,必须掌握的知识点目录 ...
Mysql查询优化汇总 order by优化例子，group by优化例子，limit优化例子，优化建议
Mysql查询优化汇总 order by优化例子,group by优化例子,limit优化例子,优化建议索引索引是一种存储引擎快速查询记录的一种数据结构. 注意 MYSQL一次查询只能使用一个索引 ...

随机推荐

Jenkins执行批处理文件、powershell失败
今天搭建Jenkins持续集成环境,编译环境是.net core.整理了一些发布的命令配置在Jenkins,问题来了,使用powershell插件运行dotnet restore.dotnet bui ...
ubuntu批量更改文件权限
重装系统之后,把文件从windows分区拷到linux分区发现所有文件的权限全是777,在终端下看到所有文件的颜色都很刺眼,文件有很多,一个一个改不现实,所以写了一段python脚本批量更改文件权限. ...
解析配置文件redis.conf
units单位: # 1k => 1000 bytes # 1kb => 1024 bytes # 1m => 1000000 bytes # 1mb => 1024*1024 ...
ACM Ignatius and the Princess I
公主被BEelzebub feng5166绑架,我们的英雄Ignatius必须拯救我们美丽的公主. 现在他进入feng5166的城堡.城堡是一个大迷宫.为简单起见,( To make the prob ...
jQuery – AJAX load() 方法
jQuery load() 方法 jQuery load() 方法是简单但强大的 AJAX 方法. load() 方法从服务器加载数据,并把返回的数据放入被选元素中. 语法: $(selector). ...
【事务】<查询不到同一调用方法其它事务提交的更新>解决方案
最近遇到一个很棘手的问题,至今也解释不清楚原因,不过已经找到了解决方案. 先来看看Propagation属性的值含义,@Transactional中Propagation属性有7个选项可供选择: Pr ...
Android源码解析——AsyncTask
简介 AsyncTask 在Android API 3引入,是为了使UI线程能被正确和容易地使用.它允许你在后台进行一些操作,并且把结果带到UI线程中,而不用自己去操纵Thread或Handler.它 ...
Android系统对话框
Android系统对话框效果图 2个按钮的对话框 3个按钮的对话框自定义View的对话框单选对话框多选对话框列表框 Code XML <?xml version="1.0&q ...
查看4k对齐，激活.net framework 3.5
查看是否4k对齐 Win+R,打开运行窗口,在窗口中输入“msinfo32",组件”--“存储”--“磁盘”.然后可以在右边栏看到“分区起始偏移”,我们图例中有2个数值,分别是:32256字 ...
你知道如何为iOS工程改名吗？
我们在iOS开发中,难免会遇到项目做到一半要改名字的情况.如果项目名差的太大,工程名看起来总是不舒服的,有良心的开发者可能就会想着为工程改个贴切的名字,那么你就为用到本文记录的内容. 如果我们开发的两 ...

mysql DISTINCT 的实现与优化

mysql DISTINCT 的实现与优化的更多相关文章

随机推荐

热门专题