查询优化应该是数据库领域最难的topic

当前查询优化,主要有两种思路,

Rules-based,基于先验知识,用if-else把优化逻辑写死

Cost-based,试图去评估各个查询计划的cost,选取cost比较小的

一个sql query的处理流程,

先是Parser,生成抽象语法树ast,Binder会去做元数据对应,把parse出来的name对应到数据库中的结构,表,字段等

然后Rewriter就是Rules-based的改写,而Optimizer是cost-based的优化

Relational Algebra Equivalences

做查询优化的前提是,查询的结果是不能变的

无论你查询怎么优化,最终得到的结果是一样的,那么就称他们是,关系代数等价

对于不同的operator,有些通用的优化rules,

这里给些例子,

Selections

对于selection,尽量下推,谓词下推,尽量早做

Projections

projection也是应该尽早去做,不需要的字段就根本不用读出来

Joins

对于Join是符合交换律和结合律的,但是对于多表join,你需要尝试的可能性是非常多的

Cost Estimation

cost-based的查询优化,关键就是要能够知道cost

如何预估cost是很复杂的问题

当前的思路,就是我们会事先对数据表,列,索引做些统计,并存储到catalog里面,然后后面就根据这些统计数据来预估cost

主要的统计数据,包含两项,行数和每一列的distinct values的个数

然后有个概念,selection cardinality,两个相除,就是平均每个value多少行

这里的假设是数据是均匀分布,很naive

有了这些概念,我们就可以来定义复杂谓词,操作,的selectivity,筛选率

Equality,Range

Equality的定义有些confuse,SC(P),SC(age=2)啥意思?

其实以range的逻辑看,这里就应该是,A列一共有5个值,当前Equality只取其中一个,所以五分之一,就这么简单

Conjunction和Disjunction

右图中,应该是 - sel(P1 交 P2)

Join,对于join,这个cost算的很粗糙,比如R表中的行数 * 每行在S中的cardinality

平均分布问题

当前算cost,都是假设平均分布,这个明显是很不合理的

但是如果对于每个value都去记录一个统计,明显不可行,太多了

所以有如下几种近似方法,

一种,每个value bucket都去统计太多,那就分组,这样每个组记录一个统计,组内仍然假设平均分布
分组可以有两种方式,第一个是固定bucket数,或者固定组内bucket统计和差不多,叫等宽

还有种更直接的方式,sampling

Query Optimization

上面说的cost estimation的方法都很naive,但是如果我们能准确的预估执行计划的cost,那么如何真正的做查询优化?

这里分为三种情况,

Single Relation,Multiple relations, Nested Sub-queries

Single Relation,比较简单,单关系表的查询
所以关键就是选择合理的access method,是顺序扫描,还是用各种索引
这里有个概念,sargable,数据库专有概念,意思是查询或执行计划可以用索引来优化的
OLTP的查询往往都是sargable的,所以通过简单的启发式的方式就可以找到优化方法

Multiple relations

多关系表join就比较复杂了

除了要选择各个表的access method

还需要选择各个表的join顺序和join算法

其中选择join顺序是个cost很高的事情,因为可能性和search space会比较的大

这里介绍IBM R的方法,它把join顺序简化成,只考虑Left-deep tree(右图最左边这个)

这样search space会大幅缩小,另外特意选择left-deep tree的原因是,这种join结构,比较容易pipeline执行,比如下图,a b的join结果直接可以用于和c join,当中间结果不是很大的时候,不需要不断地的把结果写到磁盘

对于Multiple relations,可以尝试用动态规划来选择best plan

更为形象的例子来说明如何逐步筛选plan

第一步是选择join的顺序,可以首先把明显低效的,比如做cross-products的Prune掉
然后根据cost model找出best的plan

第二步是选择join算法,这里有Nested Loop和Hash Join

第三步是选择access method,

Nested Sub-queries

第三种更为复杂一些,在有子SQL的时候,如何优化?

有两种方式,一种是通过rewrite,把嵌套的子语句flatten掉,如右图的例子

另一种方法,是decompose,如下面的例子

子句是要获取最大的rating,这个反复去执行一定是低效的,所以,干脆把这个语句拿出来单独执行,结果放在临时表,然后执行主语句的时候把值填回去

CMU Database Systems - Query Optimization的更多相关文章

  1. CMU Database Systems - Query Processing

    Query Model Query处理有三种方式, 首先是Iterator model,这是最基本的model,又称为volcano,pipeline模式 他是top-down的模式,通过next函数 ...

  2. CMU Database Systems - Database Recovery

    数据库数据丢失的典型场景如下, 数据commit后,还没有来得及flush到disk,这时候crash就会丢失数据 当然这只是fail的一种情况,DataBase Recovery要讨论的是,在各种f ...

  3. CMU Database Systems - Storage and BufferPool

    Database Storage 存储分为volatile和non-volatile,越快的越贵越小 那么所以要解决的第一个问题就是,如果尽量在有限的成本下,让读写更快些 意思就是,尽量读写volat ...

  4. CMU Database Systems - Timestamp Ordering Concurrency Control

    2PL是悲观锁,Pessimistic,这章讲乐观锁,Optimistic,单机的,非分布式的 Timestamp Ordering,以时间为序,这个是非常自然的想法,按每个transaction的时 ...

  5. CMU Database Systems - Concurrency Control Theory

    并发控制是数据库理论里面最难的课题之一 并发控制首先了解一下事务,transaction 定义如下, 其实transaction关键是,要满足ACID属性, 左边的正式的定义,由于的intuitive ...

  6. CMU Database Systems - Parallel Execution

    并发执行,主要为了增大吞吐,降低延迟,提高数据库的可用性 先区分一组概念,parallel和distributed的区别 总的来说,parallel是指在物理上很近的节点,比如本机的多个线程或进程,不 ...

  7. CMU Database Systems - Two-phase Locking

    首先锁是用来做互斥的,解决并发执行时的数据不一致问题 如图会导致,不可重复读 如果这里用lock就可以解决,数据库里面有个LockManager来作为master,负责锁的记录和授权 数据库里面的基本 ...

  8. CMU Database Systems - Distributed OLTP & OLAP

    OLTP scale-up和scale-out scale-up会有上限,无法不断up,而且相对而言,up升级会比较麻烦,所以大数据,云计算需要scale-out scale-out,就是分布式数据库 ...

  9. CMU Database Systems - MVCC

    MVCC是一种用空间来换取更高的并发度的技术 对同一个对象不去update,而且记录下每一次的不同版本的值 存在不会消失,新值并不能抹杀原先的存在 所以update操作并不是对世界的真实反映,这是一种 ...

随机推荐

  1. 安装folly库以及folly的ConcurrentHashMap的简单使用

    我在写grpc的实例时, 需要使用一个多线程的hash map, C++标准库中没有多线程的hash map, facebook开源的folly中存在大量的基础类, 中间存在一个高性能的hash ma ...

  2. CentOS上使用ntfs-3g挂载NTFS分区

    U盘做过系统盘,是NTFS格式的,Centos7竟然不识别,而且因为一些原因,我的服务器没有联网,只能用U盘 查过资料才知道Centos7上默认是不支持挂载NTFS格式的分区的,需要安装ntfs-3g ...

  3. (Linux基础学习)第三章:terminal与shell的简介和修改命令提示符颜色

    第1节:terminal终端设备终端:键盘.鼠标.显示器物理终端(/dev/console):控制台console虚拟终端(tty:teletypewriters,/dev/tty# #为[1-6]) ...

  4. 基于ATtiny85微控制器制作一款四通道温度计

    本文主要介绍了一款基于ATtiny85微控制器的四通道温度计,该温度计可以同时监测四个温度传感器的温度,并且实时在小型128x32 OLED液晶屏上进行显示. 该温度计可以用于任何需要监控多个温度点的 ...

  5. django-ContentType的简单使用

    ContentType 一般我们有多张表同时外键关联同一张表的时候,可以考虑使用ContentType models.py from django.db import models from djan ...

  6. Redis的缓存穿透问题和雪崩问题?

    缓存穿透:就是访问redis中一个不存在的key的时候,会直接穿过缓存,去数据库中进行查询. 如果是黑客,进行恶意攻击的时候,每次都请求超过2000个/秒的时候,这个时候mysql基本上就挂了. 解决 ...

  7. python开发笔记-python-numpy

    一.Numpy概念 Numpy(Numerical Python的简称)是Python科学计算的基础包.它提供了以下功能:  除了为Python提供快速的数组处理能力,Numpy在数据分析方面还有另外 ...

  8. maven 项目打包配置(build节点)

    参考博客:https://www.cnblogs.com/Binhua-Liu/p/5604841.html maven-assembly-plugin的使用 : https://www.cnblog ...

  9. Enterprise Architect 14破解版 安装包 安装教程

    安装包以及破解补丁下载: 链接:https://pan.baidu.com/s/1es0wN_6-d9pk4xnSN1SiFA 提取码:bor0 安装包链接失效可在下方留言 安装以及破解教程 参考链接 ...

  10. 2019-2020-1 20199312 《Linux内核原理与分析》 第九周作业

    进程调度 1.中断:起到切出进程指令流的作用.中断处理程序是与进程无关的内核指令流.中断类型: 硬中断:可屏蔽中断和不可屏蔽中断.高电平说明有中断请求. 软中断/异常: 故障:出问题,但可以恢复到当前 ...