semi-join子查询优化 -- Duplicate Weedout策略

duplicate weedout是执行semi-join子查询的一种策略。

将semi-join作为一个常规的inner join。然后使用一个临时表，将重复的记录排除。

假设，你有一个查询，你在寻找一个大城市人口占总人口33%以上的国家:

select *

from Country

where

   Country.code IN (select City.Country

                    from City

                    where

                      City.Population > 0.33 * Country.Population and

                      City.Population > 1*1000*1000);

如果我们以常规的inner join方式连接表city和country：

inner join会产生重复的记录。这里Germany有三行记录，因为有三个大城市。现在我们将duplicate weedout加入图示中：

这里是用了一个带有主键的临时表，来避免产生多行记录。(Germany有三条记录)

下面是使用duplicate weedout后的执行计划，其中start temporary和end temporary表明使用了临时表：

MariaDB [world]> explain select * from Country where Country.code IN (select City.Country from City where City.Population > 0.33 * Country.Population and City.Population > 1*1000*1000)\G

*************************** 1. row ***************************

           id: 1

  select_type: PRIMARY

        table: City

         type: range

possible_keys: Population,Country

          key: Population

      key_len: 4

          ref: NULL

         rows: 238

        Extra: Using index condition; Start temporary

*************************** 2. row ***************************

           id: 1

  select_type: PRIMARY

        table: Country

         type: eq_ref

possible_keys: PRIMARY

          key: PRIMARY

      key_len: 3

          ref: world.City.Country

         rows: 1

        Extra: Using where; End temporary

2 rows in set (0.00 sec)

这个查询会读取city表中的238行记录，而且，它们中的每一个都将在Country表中进行主键查找，这将提供另外238行记录。总共就是476行，需要在临时表中增加238个查找(因为临时表是in-memory的，相对成本较低)。

相同的SQL，如果不适用duplicate weedout，执行计划为：

mysql> explain select * from Country where Country.code IN (select City.Country from City where City.Population > 0.33 * Country.Population and City.Population > 1*1000*1000)

*************************** 1. row ***************************

           id: 1

  select_type: PRIMARY

        table: Country

         type: ALL

possible_keys: NULL

          key: NULL

      key_len: NULL

          ref: NULL

         rows: 239

        Extra: Using where

*************************** 2. row ***************************

           id: 2

  select_type: DEPENDENT SUBQUERY

        table: City

         type: index_subquery

possible_keys: Population,Country

          key: Country

      key_len: 3

          ref: func

         rows: 18

        Extra: Using where

2 rows in set (0.00 sec)

读取的行数是(239+239+18)=4541,就慢多了。

原文地址：

https://mariadb.com/kb/en/library/duplicateweedout-strategy/

semi-join子查询优化 -- Duplicate Weedout策略的更多相关文章

semi-join子查询优化 -- semi-join Materialization策略
semi-join Materialization 是用于semi-join的一种特殊的子查询物化技术.通常包含两种策略:1.Materialization/lookup2.Materializati ...
MySQL 通过semi join 优化子查询
半连接是MySQL 5.6.5引入的,多在子查询exists中使用,对外部row source的每个键值,查找到内部row source匹配的第一个键值后就返回,如果找到就不用再查找内部row sou ...
semi-join子查询优化 -- FirstMatch策略
FirstMatch执行semi-join子查询的一种策略. 类似于MySQL 5.x中如何执行in.exists子查询. 让我们以搜索拥有大城市的国家为例: select * from Countr ...
Mysql单表访问方法，索引合并，多表连接原理，基于规则的优化，子查询优化
参考书籍<mysql是怎样运行的> 非常推荐这本书,通俗易懂,但是没有讲mysql主从等内容书中还讲解了本文没有提到的子查询优化内容, 本文只总结了常见的子查询是如何优化的系列文章目录 ...
postgresql子查询优化(提升子查询)
问题背景在开发项目过程中,客户要求使用gbase8s数据库(基于informix),简单的分页页面响应很慢.排查发现分页sql是先查询出数据在外面套一层后再取多少条,如果去掉嵌套的一层,直接获取则很 ...
【MySQL】MySQL中针对大数据量常用技术_创建索引+缓存配置+分库分表+子查询优化（转载）
原文地址:http://blog.csdn.net/zwan0518/article/details/11972853 目录(?)[-] 一查询优化 1创建索引 2缓存的配置 3slow_query_ ...
标量子查询优化（用group by 代替distinct）
标量子查询优化当使用另外一个SELECT 语句来产生结果中的一列的值的时候,这个查询必须只能返回一行一列的值.这种类型的子查询被称为标量子查询在某些情况下可以进行优化以减少标量子查询的重复执行,但 ...
PostgreSQL查询优化之子查询优化
子查询优化上拉子连接上拉子连接主要是把ANY和EXIST子句转换为半连接 void pull_up_sublinks(PlannerInfo *root) { Node *jtnode; //子连 ...
转载:left join和left semi join的联系和区别
1.联系他们都是 hive join 方式的一种,join on 属于 common join(shuffle join/reduce join),而 left semi join 则属于 map ...

随机推荐

为什么在定义hashcode时要使用31这个数呢？
散列计算就是计算元素应该放在数组的哪个元素里.准确的说是放到哪个链表里面.按照Java的规则,如果你要想将一个对象放入HashMap中,你的对象的类必须提供hashcode方法,返回一个整数值. ht ...
PHP提示 Notice: Undefined variable
PHP提示Notice: Undefined variable,意思是:你的程序中有未定义的变量为什么在其他地方好好的程序,换个环境报这个Notice,因为php.ini提醒级别设置的问题场景复原 ...
原创：基于visual studio 2010 对话框程序的创建
1)创建工程 2)选择对话框应用 3)打开工具箱先打开资源管理器,点击IDD_TEST1_DIALOG对话框,然后在菜单栏中“视图”----“工具箱”
进程间通信之数据传输--FIFO
One of the fundamental features that makes Linux and other Unices useful is the “pipe”. Pipes allow ...
调整DataTable的列顺序
地址:https://www.cnblogs.com/gaocong/p/6490159.html 标题:DataTable 修改列名删除列调整列顺序 DataTable myDt =dt; // ...
列车网络智能诊断工具链—MVB智能诊断仪
由于MVB网络采用分布式网络结构,各组网设备分布在不同电气柜,甚至是在不同车辆上,各组网设备往往来自于不同供应商,这给MVB网络调试及诊断带来了很大的难度.目前MVB网络调试及故障排查,主要是通过仪器 ...
BZOJ2523/LOJ2646 聪明的学生
BZOJ2523/LOJ2646 聪明的学生第一道CTSC的题. 因为是思维题,所以思路就不写了.直接看代码吧. #include<bits/stdc++.h> #define M 30 ...
Import declarations are not supported by current JavaScript version
原因为:不支持当前的js版本,在perference中进行设置javascript的版本即可注意:在perference中进行更改,而不是defeaut perference,快捷键操作为:comm ...
Dubbo源码分析：Invoker
背景调用对象!在调用过程可以使用Filter接口方法.Inovoker调用过程采用了装饰者设计模式.Filter最后一个ExcpetionFilter对象,这个对象之后就调用服务方法.服务对象是配置 ...
mssql提权
MSSQL的提权:下面是三种方法一种利用xp_cmshell组件,还有一种sp_OACreate组件,COM组件 xp_cmshell组件的开启: 1.sql2005版本以后默认为关闭状态,需要开启命 ...

semi-join子查询优化 -- Duplicate Weedout策略

semi-join子查询优化 -- Duplicate Weedout策略的更多相关文章

随机推荐

热门专题