Index Merge特性

在MySQL 5.5之前版本中,查询或子查询被限制在一个表只能使用一个索引(回表查询除外)。

假设表TB1001上C1和C2列分别有单列索引,如对下面查询:

SELECT * FROM TB1001 WHERE C1='XXX' OR C2='XXX';

单独使用任一索引都无法获取到所有满足条件的数据,因此查询只能使用全表扫描。

在MySQL 5.5版本中引入Index Merge特性,允许:
查询对一个表上多个索引进行范围扫描并将多个扫描结果进行合并(UNION/INTERSECT)。

Index Merge三种合并算法:

1、Index Merge Intersect:对多个结果集求交集
2、Index Merge Union:对多个结果集求UNION集合(无需对结果集排序)
3、Index Merge Sort-Union:对多个结果集先排序再求UNION集合

Index Merge Intersect算法

当查询过滤条件(WHERE部分)上使用AND关联多个不同KEY的过滤条件时,如:

# 表TB1001有主键索引PRIMARY KEY(ID)
# 表TB1001有辅助索引IDX_C1(C1) 和辅助索引IDC_C2(C2) SELECT * FROM TB1001 WHERE C1='XXX' AND C2='XXX';

不使用Index Merge Intersect算法时执行计划伪代码为:

SELECT * FROM TB1001
WHERE ID IN (
SELECT ID FROM TB1001 WHERE C1='XXX')
AND C2='XXX';

使用Index Merge Intersect算法时执行计划伪代码为:

SELECT T2.* FROM (
SELECT ID FROM TB1001 WHERE C1='XXX'
INTERSECT
SELECT ID FROM TB1001 WHERE C2='XXX'
) AS T1
INNER JOIN TB1001 AS T2
ON T1.ID=T2.ID;

操作成本假设1:

假设:
满足C1='XXX'的记录有10000行:索引IDX_C1上每个数据页存放500行索引记录,满足条件数据:
A、"顺序存放"在索引IDX_C1上"连续"的20个索引页中。
B、"分散存放"在主键上"随机"的2000个数据页中。
满足C2='XXX'的记录有20000行,索引IDX_C2上每个数据页存放500行索引记录,满足条件数据:
A、"顺序存放"在索引IDX_C2上"连续"的40个索引页中。
B、"分散存放"在主键上"随机"的4000个数据页中。
同时满足C1='XXX' AND C2='XXX'的记录有200行,满足条件数据:
A、"分散存放"在主键上"随机"的40个数据页中 那么:
1、不使用Index Merge Intersect算法需要"顺序读取"20个IDX_C1索引页+"随机读取"2000个主键索引数据页
2、使用Index Merge Intersect算法需要"顺序读取"20个IDX_C1索引页+"顺序读取"40个IDX_C2索引页+"随机读取"40个主键索引数据页
针对上面情况,使用Index Merge Intersect算法能有效降低对主键的回表查找次数和随机读取次数(从2000次下降至40次)。

操作成本假设2:

假设:
满足C1='XXX'的记录有20行:索引IDX_C1上每个数据页存放500行索引记录,满足条件数据:
A、"顺序存放"在索引IDX_C1上"连续"的1个索引页中。
B、"分散存放"在主键上"随机"的20个数据页中。
满足C2='XXX'的记录有200000行,索引IDX_C2上每个数据页存放500行索引记录,满足条件数据:
A、"顺序存放"在索引IDX_C2上"连续"的400个索引页中。
B、"分散存放"在主键上"随机"的40000个数据页中。
同时满足C1='XXX' AND C2='XXX'的记录有19行,满足条件数据:
A、"分散存放"在主键上"随机"的19个数据页中 那么:
1、不使用Index Merge Intersect算法需要"顺序读取"1个IDX_C1索引页+"随机读取"20个主键索引数据页
2、使用Index Merge Intersect算法需要"顺序读取"1个IDX_C1索引页+"顺序读取"400个IDX_C2索引页+"随机读取"19个主键索引数据页
针对上面情况,使用Index Merge Intersect算法需要额外读取400个IDX_C2索引页才能降低1次主键的回表查询和随机读取,显然性能更差。

Index Merge Intersect算法和Index condition Pushdown特性

在MySQL官方文档中,Index Merge Intersect算法可以应用在分别使用主键和二级索引的查询中,如:

SELECT *
FROM innodb_table
WHERE primary_key < 10
AND key_col1 = 20;

在未引入ICP特性的早期MySQL版本中,主键上过滤条件(primary_key < 10)不会"下推"到查询满足key_col1 = 20条件的过程中,因此可以使用Index Merge Intersect算法来减少回表查找次数。

在引入ICP特性的MySQL版本中,由于辅助索引的索引记录中都包含主键列数据,因此主键上过滤条件(primary_key < 10)可以"下推"到查询满足key_col1 = 20条件的过程中,无需再使用Index Merge Intersect算法。

## 在MySQL 5.7版本中测试
SELECT *
FROM TB001
WHERE C1=10
AND ID<100;
## 执行计划为:
*************************** 1. row ***************************
id: 1
select_type: SIMPLE
table: TB001
partitions: NULL
type: ref
possible_keys: PRIMARY,IDX_C1
key: IDX_C1
key_len: 5
ref: const
rows: 1
filtered: 33.33
Extra: Using where; Using index
## 执行计划Extra部分没有INDEX MERGE相关信息

Index Merge Intersect性能问题优化

在部分场景中,使用Index Merge Intersec算法会带来严重的性能问题,DBA可以通过MySQL参数optimizer_switch来关闭该特性。

对于通过Index Merge Intersec算法受益的查询,可以考虑使用组合索引或覆盖索引来替换单列索引。

如对上面查询,可以将索引IDX_C1(C1)调整为IDX_C1_C2(C1,C2),其查询性能更佳。

Index Merge Union算法
当查询过滤条件(WHERE部分)上使用OR关联多个不同KEY的过滤条件时,如:

# 表TB1001有主键索引PRIMARY KEY(ID)
# 表TB1001有辅助索引IDX_C1(C1) 和辅助索引IDC_C2(C2)
SELECT * FROM TB1001 WHERE C1='XXX' OR C2='XXX';

其操作步骤为:

1、使用IDX_C1索引获取到满足条件的[C1,ID]记录,记录默认按照ID排序
2、使用IDX_C1索引获取到满足条件的[C1,ID]记录,记录默认按照ID排序
3、将已经按照ID排序的步骤1和步骤2的数据进行合并去重ID。
4、按照ID回表查找并返回

伪代码为:

SELECT T2.* FROM (
SELECT ID FROM TB1001 WHERE C1='XXX'
UNION
SELECT ID FROM TB1001 WHERE C2='XXX'
) AS T1
INNER JOIN TB1001 AS T2
ON T1.ID=T2.ID 在创建索引IDX_C1(ID)时,其等价为IDX_C1(C1,ID),相同C1值的记录按ID值排序,因此UNION操作的两个中见结果集在ID上时有序的。

Index Merge Sort-Union算法

当查询过滤条件(WHERE部分)上使用OR关联多个不同KEY的过滤条件时,如:

# 表TB1001有主键索引PRIMARY KEY(ID)
# 表TB1001有辅助索引IDX_C1(C1) 和辅助索引IDC_C2(C2)
SELECT * FROM TB1001 WHERE C1>'XXX' OR C2<'XXX';

其操作步骤为:

1、使用IDX_C1索引获取到满足条件的[C1,ID]记录,再按照ID进行排序
2、使用IDX_C1索引获取到满足条件的[C1,ID]记录,再按照ID进行排序
3、将步骤1和步骤2的已按ID排序后数据进行合并去重ID。
4、按照ID回表查找并返回

伪代码为:

SELECT T2.* FROM (
SELECT ID FROM TB1001 WHERE C1>'XXX'
ORDER BY ID
UNION
SELECT ID FROM TB1001 WHERE C2>'XXX'
ORDER BY ID
) AS T1
INNER JOIN TB1001 AS T2
ON T1.ID=T2.ID 在创建索引IDX_C1(ID)时,其等价为IDX_C1(C1,ID),对C1列进行范围查询返回数据的数据按照C1+ID排序,在ID列上是无序的,因此UNION操作前需先对两个中间结果集排序。

Index Merge Union相关优化
在禁用Index Merge特性时,可以通过SQL将OR操作改写为UNION ALL操作,使查询同时使用多个索引。

如上面使用Index Merge Union算法的查询,可以改写为:

#改写前:
SELECT * FROM TB1001 WHERE C1='XXX' OR C2='XXX'; # 改写后
SELECT T2.* FROM (
SELECT ID FROM TB1001 WHERE C1='XXX'
UNION ALL
SELECT ID FROM TB1001 WHERE C2='XXX' AND (C1<>'XXX' OR C1 IS NULL)
) AS T1
INNER JOIN TB1001 AS T2
ON T1.ID=T2.ID

PS: 将IDX_C2(C2)改写为IDX_C2_C2(C1,C2)能在UNION操作前避免回表查询。

MySQL Execute Plan--Index Merge特性的更多相关文章

  1. MySQL 查询优化之 Index Merge

    MySQL 查询优化之 Index Merge Index Merge Intersection 访问算法 Index Merge Union 访问算法 Index Merge Sort-Union ...

  2. MySQL 优化之 index merge(索引合并)

    深入理解 index merge 是使用索引进行优化的重要基础之一.理解了 index merge 技术,我们才知道应该如何在表上建立索引. 1. 为什么会有index merge 我们的 where ...

  3. MySQL index merge

    深入理解 index merge 是使用索引进行优化的重要基础之一. [ index merge]       当where谓词中存在多个条件(或者join)涉及到多个字段,它们之间进行 AND 或者 ...

  4. MySQL Index Merge Optimization

    Index Merge用在通过一些range scans得到检索数据行和合并成一个整体.合并可以通过 unions,intersections,或者unions-intersection运用在底层的扫 ...

  5. MySQL ICP(Index Condition Pushdown)特性

    一.SQL的where条件提取规则 在ICP(Index Condition Pushdown,索引条件下推)特性之前,必须先搞明白根据何登成大神总结出一套放置于所有SQL语句而皆准的where查询条 ...

  6. MySQL中Index Merge简介

    索引合并优化 官网翻译 MySQL5.7文档 索引合并是为了减少几个范围(type中的range类型:range can be used when a key column is compared t ...

  7. 《转》MySQL 5.7版本新特性连载

    MySQL 5.7版本新特性连载(一) 本文将和大家一起分享下5.7的新特性,不过我们要先从即将被删除的特性以及建议不再使用的特性说起.根据这些情况,我们在新版本及以后的版本中,应该不再使用,避免未来 ...

  8. index merge的一次优化

    手机微博4040端口SQL优化 现象 某端口常态化延迟,通过使用pt-query-digest发现主要由于一条count(*)语句引发,具体如下: # .5s .58M rss, .84M vsz # ...

  9. 8.2.1.4 Index Merge Optimization 索引合并优化:

    8.2.1.4 Index Merge Optimization 索引合并优化: 索引合并方法是用于检索记录 使用多个 范围扫描和合并它们的结果集到一起 mysql> show index fr ...

随机推荐

  1. 工具之grep

    转自:http://www.cnblogs.com/dong008259/archive/2011/12/07/2279897.html grep (global search regular exp ...

  2. php--->单例模式封装mysql操作类

    php 单例模式封装mysql操作类 单例模式的必要条件(三私一公) 私有的成员属性--防止类外引入这个存放对象的属性 私有的构造方法--为了防止在类外使用new关键字实例化对象 私有的克隆方法--为 ...

  3. X-CTF(REVERSE高级) Reversing-x64Elf-100

    逻辑很简单,如果sub_4006FD函数返回假则返回Nice! 图1 进入sub_4006FD函数,加密过程也很简单,这里值得注意的有两点 一.8*(i%3)是二维数组的第一个参数,这里是取v3的地址 ...

  4. Git详解之服务部署

    前言 到目前为止,你应该已经学会了使用 Git 来完成日常工作.然而,如果想与他人合作,还需要一个远程的 Git 仓库.尽管技术上可以从个人的仓库里推送和拉取修改内容,但我们不鼓励这样做,因为一不留心 ...

  5. SpringBoot 的不同

    这些在写前端页面的时候,ssm框架中,在页面做出修改之后,保存一下,重新刷新一下浏览器页面就发生了更新 但是sprigBoot中好像不一样,好像是需要对页面进行重新编译一下,浏览器页面才会发生变化 ( ...

  6. Linux系统的用户和用户组管理

    一.用户账户管理 Linux/Unix是一个用户.多任务的操作系统:在讲Linux账号及账户组管理之前,先简单了解一下多用户.多任务操作系统的基本概念. Linux的单用户多任务 在Linux下,当你 ...

  7. lua学习之语句篇

    语句 赋值 修改一个变量或者修改 table 中的一个字段的值 多重赋值,lua 先对等号右边的所有元素进行求值,然后再赋值 值的个数小于变量的个数,那么多余的变量就置为 nil 初始化变量,应该为每 ...

  8. 使用脚本+kafka自带命令行工具 统计数据写入kafka速率

    思路 每隔一段时间(比如说10秒)统计一次某topic的所有partition的最大offset值之和,这便是该topic的message总数. 然后除以间隔时间就可以粗略但方便得出 某topic的数 ...

  9. DataGuard---->主库和备库都配置 db_file_name_convert和log_file_name_convert的作用

    一.参数说明 [1] db_file_name_convert db_file_name_convert 主数据库和备用数据库的数据文件转换目录对映(如果两数据库的目录结构不一样),如果有多个对映,逐 ...

  10. Dockerfile的使用

    一 什么是Dockerfile Dockerfile是由一系列命令和参数构成的脚本,这些命令应用于基础镜像并最终创建一个新的镜像. 1.对于开发人员:可以为开发团队提供一个完全一致的开发环境: 2.对 ...