Mysql优化(出自官方文档) - 第二篇

1 关于Nested Loop Join的相关知识

1.1 相关概念和算法

Mysql在实现join的时候,采用的Nested Loop Join技术,join的方式还有其他两种:Hash JoinSortMergeJoin ,Mysql处于逻辑实现统一的角度,只实现了Nested Loop Join,假设有t1, t2, t3三张表,EXPLAIN优化的结果为:

Table   Join Type
t1 range
t2 ref
t3 ALL

那么其Join的方式可以用下面的为代表来表示:

for each row in t1 matching range {
for each row in t2 matching reference key {
for each row in t3 {
if row satisfies join conditions, send to client
}
}
}

为了减少内表的IO,Mysql又引入了NestedLoopJoin的一个变种,叫做:Block Nested-Loop Join,简称为BNL,简单理解就是NestedLoopJoin With Buffer,为每一个join维护一个Join Buffer,对于外层循环,每次将扫描的行放入到Buffer中,内表直接对Buffer中的行进行匹配操作,对应的伪代码如下:

for each row in t1 matching range {
for each row in t2 matching reference key {
store used columns from t1, t2 in join buffer
if buffer is full {
for each row in t3 {
for each t1, t2 combination in join buffer {
if row satisfies join conditions, send to client
}
}
empty join buffer
}
}
} if buffer is not empty {
for each row in t3 {
for each t1, t2 combination in join buffer {
if row satisfies join conditions, send to client
}
}
}
1.2 一些优化
  • 在Join语句中,除了on 语句后面的条件外,如果还存在where语句,假设有三张表t1, t2, t3,如下面的格式:

    select * from (t1,t2) on P1(t1,t2) inner join t3 on P2(t2,t3) where C1(t1) and C2(t2) and C3(t3);

    inner join的伪代码如下所示:

    FOR each row t1 in T1 such that C1(t1) {
    FOR each row t2 in T2 such that P1(t1,t2) AND C2(t2) {
    FOR each row t3 in T3 such that P2(t2,t3) AND C3(t3) {
    IF P(t1,t2,t3) {
    t:=t1||t2||t3; OUTPUT t;
    }
    }
    }
    }

    Mysql会采用条件下推的优化方式,提前将where的条件限制在inner join的循环里面,这样子,如果C1的条件非常严苛,那么可以避免大量对t2, t3表的IO操作。需要注意的是:这种优化方式可能并不适用于outer joinouter joinwhere提前会导致不同的结果。

  • outer join优化

    • 对于left join,如果对于generated NULL row, 后面的where条件始终为false, 那么,这个left join可以被安全的转换为inner join,如下面的语句所示,假设t1.column1始终为NULL

      SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5;

      那么这条语句可被转换为inner join

      SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1;

      解释:之所以会有这样的转换, 是因为这样做t2便不需要进行全表扫描,只需要扫描出column2 = 5的行。

    • 有时候,在prepare阶段,一些琐碎的条件可以直接被移除掉(特指Mysql8.0.14+的版本),而不是在优化器里面在进行移除,提前移除这些条件,可以让优化器尽可能的把left join转换为inner join,比如以下语句:

      SELECT * FROM t1 LEFT JOIN t2 ON condition_1 WHERE condition_2 OR 0 = 1

      0 = 1始终为false,因此可以直接移除掉,移除后的结果:

      SELECT * FROM t1 LEFT JOIN t2 ON condition_1 where condition_2

      此时,优化器便可以根据实际情况将该语句优化为inner join(假设按照上一个规则优化):

      SELECT * FROM t1 JOIN t2 WHERE condition_1 AND condition_2
  • outer join一些简化措施(重写或者转换)

    • 大多数情况下,right join会在解析阶段直接被转换为left join,如下所示:

      (T1, ...) RIGHT JOIN (T2, ...) ON P(T1, ..., T2, ...)

      转换为的结果为:

      (T2, ...) LEFT JOIN (T1, ...) ON P(T1, ..., T2, ...)
    • 有时候,当join带有where条件时,并且where条件里面首先对inner table进行访问,那么这个时候,优化器将很难对其进行优化,比如下面的例子:

      SELECT * T1 LEFT JOIN T2 ON P1(T1,T2)
      WHERE P(T1,T2) AND R(T2)

      此时,Mysql会对where条件进行null-rejected判断,如果判断成功,那么outer join就可以安全的被转换为inner join,需要注意的是,进行null-rejected判断的对象必须在内表上,原理很简单,因为对于outer join,如果内表没有匹配到的行,会进行null-complemented(对应的内表所有行被设置为NULL),所以,如果此时where条件对于内表的判断始终为false,那么null-complemented的行将会被过滤掉,此时``outer join的结果将等价于inner join的结果,对于下面的例子:

      T1 LEFT JOIN T2 ON T1.A=T2.A

      null-rejected的条件包括(t2的列会被设置为NULL):

      T2.B IS NOT NULL
      T2.B > 3
      T2.C <= T1.C
      T2.B < 2 OR T2.C > 1

      下面的条件不属于null-rejected,因为下面的条件对于null-complemented行可能为真:

      T2.B IS NULL
      T1.B < 3 OR T2.B IS NOT NULL
      T1.B < 3 OR T2.B > 3

      举例说明,比如下面的语句:

      SELECT * FROM T1 LEFT JOIN T2 ON T2.A=T1.A
      LEFT JOIN T3 ON T3.B=T1.B
      WHERE T3.C > 0

      可以判断出,T3.C > 0是一个典型的null-rejected条件,因此该语句可以被直接的转换为:

      SELECT * FROM T1 LEFT JOIN T2 ON T2.A=T1.A
      INNER JOIN T3 ON T3.B=T1.B
      WHERE T3.C > 0

      再来看一个更加复杂的例子

      SELECT * FROM T1 LEFT JOIN T2 ON T2.A=T1.A
      LEFT JOIN T3 ON T3.B=T2.B
      WHERE T3.C > 0

      与第一个例子唯一的趋避额就是T2T3 join的条件不同,此时join的对象变成了T3.B = T2.B,类似于第一个例子,上述语句可以直接转换为:

      SELECT * FROM T1 LEFT JOIN T2 ON T2.A=T1.A
      INNER JOIN T3 ON T3.B=T2.B
      WHERE T3.C > 0

      在Mysql中,inner joincross join带on的版本,上面这条语句和下面是等价的:

      SELECT * FROM (T1 LEFT JOIN T2 ON T2.A=T1.A), T3
      WHERE T3.C > 0 AND T3.B=T2.B

      对于最外层的T1T2,可以看到where条件里面的T3.B = T2.B又是一个null-rejected条件,因此,外层的join也可以被直接优化为:

      SELECT * FROM (T1 INNER JOIN T2 ON T2.A=T1.A), T3
      WHERE T3.C > 0 AND T3.B=T2.B

      经过上面的优化过程,最终的语句已经没有了outer join,可以大幅度提高join的效率,因此根据该优化规则,我们写join的时候,也可以有效的利用这种优化方式。

Mysql优化(出自官方文档) - 第二篇的更多相关文章

  1. Mysql优化(出自官方文档) - 第三篇

    目录 Mysql优化(出自官方文档) - 第三篇 1 Multi-Range Read Optimization(MRR) 2 Block Nested-Loop(BNL) and Batched K ...

  2. Mysql优化(出自官方文档) - 第五篇

    目录 Mysql优化(出自官方文档) - 第五篇 1 GROUP BY Optimization 2 DISTINCT Optimization 3 LIMIT Query Optimization ...

  3. Mysql优化(出自官方文档) - 第六篇

    Mysql优化(出自官方文档) - 第六篇 目录 Mysql优化(出自官方文档) - 第六篇 Optimizing Subqueries, Derived Tables, View Reference ...

  4. Mysql优化(出自官方文档) - 第一篇(SQL优化系列)

    Mysql优化(出自官方文档) - 第一篇 目录 Mysql优化(出自官方文档) - 第一篇 1 WHERE Clause Optimization 2 Range Optimization Skip ...

  5. Mysql优化(出自官方文档) - 第八篇(索引优化系列)

    目录 Mysql优化(出自官方文档) - 第八篇(索引优化系列) Optimization and Indexes 1 Foreign Key Optimization 2 Column Indexe ...

  6. Mysql优化(出自官方文档) - 第九篇(优化数据库结构篇)

    目录 Mysql优化(出自官方文档) - 第九篇(优化数据库结构篇) 1 Optimizing Data Size 2 Optimizing MySQL Data Types 3 Optimizing ...

  7. Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇)

    Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇) 目录 Mysql优化(出自官方文档) - 第十二篇(优化锁操作篇) 1 Internal Locking Methods Row-Leve ...

  8. Mysql优化(出自官方文档) - 第十篇(优化InnoDB表篇)

    Mysql优化(出自官方文档) - 第十篇(优化InnoDB表篇) 目录 Mysql优化(出自官方文档) - 第十篇(优化InnoDB表篇) 1 Optimizing Storage Layout f ...

  9. Mysql优化(出自官方文档) - 第七篇

    Mysql优化(出自官方文档) - 第七篇 目录 Mysql优化(出自官方文档) - 第七篇 Optimizing Data Change Statements 1 Optimizing INSERT ...

随机推荐

  1. Ping命令浅析

    Ping ​ Ping基于ICMP协议. ​ Ping可以分为 内网Ping 和 外网Ping ​ 下面以内网Ping为例,使用的软件是eNSP和WireShark ​ ​ Step1.创建拓扑,PC ...

  2. redis的数据结构、使用场景、持久化方式以及常见面试问题

    一.redis中的数据结构 1.字符串(String) SET key value //存入字符串键值对 MSET key value[key value...] //批量存储字符串键值对 SETNX ...

  3. 如何更好理解Peterson算法?

    如何更好理解Peterson算法? 1 Peterson算法提出的背景 在我们讲述Peterson算法之间,我们先了解一下Peterson算法提出前的背景(即:在这个算法提出之前,前人们都做了哪些工作 ...

  4. Java集合详解(三):LinkedList原理解析

    概述 本文是基于jdk8_271源码进行分析的. LinkedList底层是基于链表实现.链表没有长度限制,内存地址不需要固定长度,也不需要是连续的地址来进行存储,只需要通过引用来关联前后元素即可完成 ...

  5. [刷题] 455 Assign Cookies

    要求 贪心算法的关键:判断问题是否可以用贪心算法解决 给小朋友们分饼干,每个小朋友"贪心指数"为g(i),饼干大小值s(i) g(i):小朋友需要的饼干大小的最小值 若s(j)&g ...

  6. Chm文件阅读软件测试需求

    转发: .Chm文件阅读软件测试需求 . xchm问题太多就不考虑了: kchm是问题少一些 windows打开是乱码就不去考虑 必须在windows打开正常的再在龙芯上打开 1windows打开是乱 ...

  7. Kubernetes 部署微服务电商平台(16)

    一.概念 微服务就是很小的服务,小到一个服务只对应一个单一的功能,只做一件事.这个服务可以单独部署运行,服务之间可以通过RPC来相互交互,每个微服务都是由独立的小团队开发,测试,部署,上线,负责它的整 ...

  8. zabbix监控之邮件报警通知

    zabbix官网的操作指南:https://www.zabbix.com/documentation/4.0/zh/manual 首先我们需要创建一个需要被监控的主机,并设置相应的监控项.当监控项收集 ...

  9. 3.socket编程示例

    #block_server.py 非阻塞IO示例#有个疑惑:下面的connfd的blockind要设置为True,不然会出错,待解决from socket import *from time impo ...

  10. 程序"三高"解决方案

    0. 程序三高 1. 缓存 2. 预处理和延后处理 3. 池化 3.1 内存池 3.2 线程池 3.3 连接池 4. 异步(回调) 5. 消息队列 5.1 服务解耦 5.2 异步处理 5.3 流量削峰 ...