第3章单表选择率（Single Table Selectivity）

Selectivity是优化器估算Rows（Cards）的重要依据。

/**************************************************************************************************************************************/

3.1 Getting Started

select count(*)

from audience

where month_no = 12

;

从优化器的角度，分析1200名听众中，估算12月出生的人数

(1)user_tab_col_statistics.num_distinct=12

(2)user_tab_histograms指出low(1)，high(12)，均匀分布

(3)user_tab_col_statistics.density=1/12

(4)month_no=12，单列，均一，所以user_tab_col_statistics.density可用

(5)low(1)<=12<=high(12)

(6)user_tab_col_statistics.num_nulls=0，没有空值

(7)user_tables.num_rows=1200

(8)1200/12=100

本章代码附件中：

birth_month_01.sql

hack_stats.sql

birth_month_01.sql构建表，先进行两次查询系统表，后做count(*)查询两次。

两次之间可在其他session执行hack_stats.sql，修改表的统计信息，看哪些统计项能影响rows的计算

(1)将表名和列名填入hack_stats.sql，并修改表的行数numrows

define m_source_table='AUDIENCE'

define m_source_column='month_no'

--m_avgrlen := m_avgrlen + 25;

m_numrows:=m_numrows+1200;

交叉执行后，rows从100变成200
测试后将numrows复原

(2)修改distcnt和density

打开Column statistics的注释

--m_distcnt:=m_distcnt+12;

m_density:=m_density/2;

经多次测试，distcnt的修改不起作用，说明仅有density参与计算（Oracle版本10204）。
并非像书中所提的那样，可能9i和10gR1中，没有直方图时是用distcnt来计算rows，Oracle之后的版本又改进了

测试后将density复原

/**************************************************************************************************************************************/

begin

	dbms_stats.gather_table_stats(

		user,

		'audience',

		cascade => true,

		estimate_percent => null,

		method_opt => 'for all columns size 1'

	);

end;

/

其中method_opt => 'for all columns size 1'，指不收集直方图，8i和9i的默认值

method_opt =>'for all columns size auto'10g默认值，可以通过下面方法读取

SQL> select dbms_stats.get_param('METHOD_OPT') from dual;

DBMS_STATS.GET_PARAM('METHOD_OPT')

---------------------------------------------------------

FOR ALL COLUMNS SIZE AUTO

已选择 1 行。

/**************************************************************************************************************************************/

3.2 Null Values

将null加入到rows的计算中

假定10%的人不记得自己的生日在几月

本章代码附件中：

birth_month_02.sql

该脚本中，将120行设置为空值，最终rows=90

说明优化器排除了null对估算rows的影响；density依然是1/12，并没有改变，说明density是减去空值数量后的结果。

/**************************************************************************************************************************************/

3.3 Using Lists

select count(*)

from audience

where month_no in (6,7,8)

;

开始研究month_no in (6,7,8)，这种条件时，rows的计算方式

本章代码附件中：

in_list.sql

在没有重复值时，rows计算无误

/**************************************************************************************************************************************/

8i中计算错误的原因：

select count(*) from audience where month_no in (6,7,8);

select /* +use_concat */count(*) from audience where month_no in (6,7,8);

/**************************************************************************************************************************************/

本章代码附件中：

in_list_02.sql

将月份从12扩大到1000，density为0.001

获得列表3-1，用来对比8i到10g的计算值，版本间影响不大

/**************************************************************************************************************************************/

本章代码附件中：

oddities.sql

在存有重复值、空值、过界值时，计算rows的状况，10204明显有所改善，考虑了最大最小值（书中原版本未考虑过界值的问题）

条件	8i	92/10102	10204
month_no = 25	100	100	1
month_no in (4, 4)	100	100	100
month_no in (3, 25)	192	200	100
month_no in (3, 25, 26)	276	300	101
month_no in (3, 25, 25, 26)	276	300	101
month_no in (3, 25, null)	276	300	200
month_no in (:b1, :b2, :b3)	276	300	300

仅仅在有空值时，不能正确计算rows，但也比之前版本误差小。

/**************************************************************************************************************************************/

10104的线性衰变

oracle在10.2之前采用过一个更为复杂的线性衰变算法，即超过最大值或低于最小值时，单值rows的斜率为 "1/最大值-最小值"。

通过上面10204的测试，这个算法在新版本中被取代。

本章代码附件中：

in_list_10g.sql

在10104中的结果：

条件	10102	10104
month_no = 13	100	91
month_no = 15	100	73
month_no in (13,15)	200	164
month_no in (16,18)	200	109

10104比10102略有改进，10204比10104改进就更加明显了，虽然还有缺陷（null上），但说明oracle的opt团队在不断的更新代码。

/**************************************************************************************************************************************/

3.4 Range

本章代码附件中：

ranges.sql

总结各个版本，统计如下：

号	谓词	8i	92/10102	10204	数学表达式	真实值
1	month_no > 8	437	436	436	(8,	400
2	month_no >= 8	537	536	536	[8,	500
3	month_no < 8	764	764	764	,8)	700
4	month_no <= 8	864	864	864	,8]	800
5	month_no between 6 and 9	528	527	527	[6,9]	400
6	month_no >= 6 and month_no <= 9	528	527	527	[6,9]	400
7	month_no >= 6 and month_no < 9	428	427	427	[6,9)	300
8	month_no > 6 and month_no <= 9	428	427	427	(6,9]	300
9	month_no > 6 and month_no < 9	328	327	327	(6,9)	200
10	month_no > :b1	60	60	101	(:b1,
11	month_no >= :b1	60	60	101	[:b1,
12	month_no < :b1	60	60	101	,:b1)
13	month_no <= :b1	60	60	101	,:b1]
14	month_no between :b1 and :b2	4	3	9	[:b1,:b2]
15	month_no >= :b1 and month_no <= :b2	4	3	9	[:b1,:b2]
16	month_no >= :b1 and month_no < :b2	4	3	9	[:b1,:b2)
17	month_no > :b1 and month_no < :b2	4	3	9	(:b1,:b2)
18	month_no > :b1 and month_no <= :b2	4	3	9	(:b1,:b2]
19	month_no > 12	100	100	100	(12,	0
20	month_no between 25 and 30	100	100	100	[25,30]	0

其中8i的4和9i的3，是没有区别的（10进制和二进制转换时有个小数），只是8i在计算式使用上浮，9i用的舍入

从上表发现的几条规律：

(1)"(" 和 "]"的差距为100

(2)超过边界值为100

(3)有绑定变量的rows，开闭区间并无影响

(4)10-13行，单个绑定变量的range，前期版本定为5%（1200*5%=60），10204之后较为复杂（有待研究）

(5)14-18行，5%*5%=2.5/1000，1200*5%*5%=3行

(6)19-20行，超出最大最小值范围时，给出一个固定的选择率。本章代码selectivity_one.sql给出了该环节9i的测试代码。

本章代码附件中：

selectivity_one.sql

构建一个4列的nologging表，3000行；对比4个边界上的定值查询和">"查询，rows是一样的。

说明超过边界值的查询所给出的选择率，跟等于边界值查询的选择率是一样的。

/**************************************************************************************************************************************/

CARDINALITY

基数的变化，对于执行计划的后续选择至关重要

/**************************************************************************************************************************************/

绑定变量和区间

因为colx like 'A%'可以等效为colx >='A' and colx <='B'；colx like :b1似乎也可以等效为between and的结构；但是他们两个的选择率是不同的，前者是5%后者是5%*5%。

本章代码附件中：

like_test.sql

构建一个10W行的表，绑定变量查询的rows为5000，正好是5%；其他定值查询都不同；但使用lower(col) like的方式，选择率也变为5%。

说明opt处理谓词表达式时，是按照变量来处理的，且为单个变量。

/**************************************************************************************************************************************/

Selectivity = “required range” / “total available range”

下面通过几个Case，来验证上面公式，并得出前面列表的结果。

Case 1

month_no > 8

(8,)

Selectivity = (high_value – limit) / (high_value – low_value) = (12 – 8) / (12 – 1) = 4/11

Cardinality = 1,200 * 4 / 11 = 436.363636

Case 2

month_no >= 8

[8,)

Selectivity = (high_value – limit) / (high_value – low_value) + 1/num_distinct = 4/11 + 1/12

Cardinality = 1,200 * (4/11 + 1/12) = 536.363636

Cases 3 and 4

Selectivity (3) = (limit – low_value) / (high_value – low_value) = (8 – 1) / (12 – 1) = 7/11

Selectivity (4) = (8 – 1) / (12 – 1) + 1/12 = 7/11 + 1/12

Cases 5 and 6

month_no between 6 and 9

Selectivity = (9 – 6) / (12 – 1) + 1/12 + 1/12 --( >= , <= )

Cases 7, 8, 9

Selectivity (7) = (9 – 6) / (12 – 1) + 1/12

--( >= , < )

Selectivity (8) = (9 – 6) / (12 – 1) + 1/12

--( > , <= )

Selectivity (9) = (9 – 6) / (12 – 1) --( > , <)

/**************************************************************************************************************************************/

BIND VARIABLE PEEKING（绑定变量窥视）

绑定变量可以共享游标，使OLTP减少了大量硬解析；但本章中也看出了它的一个弊端（引起rows的计算错误，统统5%）

因此，9i引入了绑定变量窥视

在绑定变量的SQL语句，第一次执行时，窥视一下变量的值，给出正确的rows，并选择最优路径，之后提炼出可与后面语句共享的部分，无论绑定变量是否变化，都会使用该共享。

在变量为字符串类型时，字符串长度变化较大时，执行计划会有所变化。

具体如何变化有待研究

/**************************************************************************************************************************************/

range上10104的更新

本章代码附件中：

ranges_10g.sql

条件	10102	10104	10204
month_no between 6 and 9	527	527	527
month_no between 14 and 17	100	82	100
month_no between 18 and 21	100	45	100
month_no between 24 and 27	100	1	100

正如前面提到的，在10104，超出边界值时，默认采用一个斜率为 "1/最大值-最小值" 的线性衰变

但在10204上又将默认改回去了

具体是哪个参数控制的，有待研究

/**************************************************************************************************************************************/

3.5 Two Predicates（双谓词）

where

month_no > 8

or month_no <= 8

此时计算的rows=986

本章代码附件中：

ranges_02.sql

类似上面的条件，列出了1-12的所有rows

	rows
1	1,108
2	1,110
3	1,040
4	989
5	959
6	948
7	957
8	986
9	1,035
10	1,103
11	1,192
12	1,200

优化器仅仅将条件判断为：两个由or连接起来的谓词

selectivity(predicate1 AND predicate2)
= selectivity(predicate1) * selectivity(predicate2)

selectivity(predicate1 OR predicate2)
= selectivity(predicate1) + selectivity(predicate2) - selectivity(predicate1 AND predicate2)

selectivity(NOT predicate1)
= 1 – selectivity(predicate1)

本章代码附件中：

two_predicate_01.sql

解释了上面两个谓词时的运算

bind_between.sql

分析了绑定变量下，两个谓词时的选择率

/**************************************************************************************************************************************/

3.6 多个谓词的相关问题

计算一下下面的选择率

where

month_no > 8
-- (predicate 1)

or month_no <= 8
-- (predicate 2)

selectivity(predicate1)简称s(p1),以此类推

s(p1) = (12 – 8) / (12 – 1) = 4/11

s(p2) = (8 – 1) / (12 – 1) + 1/12 = 7/11 + 1/12

s(p1 and p2) = 4/11 * (7/11 + 1/12)

s(p1 or p2) = s(p1) + s(p2) - s(p1 and p2) = 4/11 + 7/11 + 1/12 - 4/11 * (7/11 + 1/12) =0.8216

1200*0.8216=986

/**************************************************************************************************************************************/

三个谓词时会如何呢？

month_no in (6,7,8)就类似于三个谓词被or连接

sel(A or B or C) = sel(A) + sel(B) + sel(C) – Sel(A)sel(B) – Sel(B)sel(C) – sel(C)sel(A) + Sel(A)Sel(B)Sel(C)

带入month_no in (6,7,8)会得出相应的rows=276

如果一个表中，不同列有依赖关系时，如何计算选择率呢？例如月份列+星座列

9i动态采样、10gfrofile （有待研究）

CBO学习----03--选择率（Selectivity）的更多相关文章

JavaScript学习03 JS函数
JavaScript学习03 JS函数函数就是包裹在花括号中的代码块,前面使用了关键词function: function functionName() { 这里是要执行的代码 } 函数参数函数的 ...
Java虚拟机JVM学习03 连接过程：验证、准备、解析
Java虚拟机JVM学习03 连接过程:验证.准备.解析类被加载后,就进入连接阶段. 连接就是将已经读入到内存的类的二进制数据合并到虚拟机的运行时环境中去. 连接阶段三个步骤:验证.准备和解析. 类 ...
Java学习03
Java学习03 1.java面试一些问题一.什么是变量变量是指在程序执行期间可变的数据.类中的变量是用来表示累的属性的,在编程过程中,可以对变量的值进行修改.变量通常是可变的,即值是变化的二. ...
ThinkPhp学习03
原文:ThinkPhp学习03 一.ThinkPHP 3 的输出 (重点) a.通过 echo 等PHP原生的输出方式在页面中输出 b.通过display方法输出想分配变量可以使用as ...
JVM学习03：性能监控工具
JVM学习03:性能监控工具写在前面:本系列分享主要参考资料是周志明老师的<深入理解Java虚拟机>第二版. 性能监控工具知识要点Xmind梳理案例分析案例分析1-JPS 案例分 ...
node.js 学习03
node.js学习03 解决浏览器接收服务端信息之后乱码的问题: 服务器通过设置http响应报文头,告诉浏览器使用相应的编码来解析网页. res.setHeader('Content','text/ ...
Redis学习03——存储字符串(String)
--------------------- 作者:愤怒的小明来源:CSDN 原文:https://blog.csdn.net/qiwenmingshiwo/article/details/78118 ...
Mybatis学习03
title: Mybatis学习03 date: 2020-01-19 13:03:20 tags: Mybatis学习的第二天,内容有日志和分页.  1.日志 1. ...
CBO学习笔记（转）
Query Transformation 在继续研究SQL的其他操作(比如Join)对CBO的影响之前,我们来讨论一下Oracle优化器的Query Transformation特性.我们都习惯于根据 ...

随机推荐

[转]python pickle包，cPickle包存储
在之前对Python对象的介绍中 (面向对象的基本概念,面向对象的进一步拓展),我提到过Python“一切皆对象”的哲学,在Python中,无论是变量还是函数,都是一个对象.当Python运行时,对象 ...
linux自定义开机启动服务
转 http://www.cnblogs.com/jimeper/archive/2013/03/12/2955687.html 手工创建服务 1.在/etc/rc.d/init.d目录下创建shel ...
php时间选择器亲测可以自己修改
由于前端的离职造成我需要自己去做后台页面所以有一个要填写生日的我就用了这个时间选择器 <?php /** * Created by PhpStorm. * User: Administ ...
Android中基于Socket的网络通信
1. Socket介绍 2. ServerSocket的建立与使用 3. 使用ServerSocket建立聊天服务器-1 4. 使用ServerSocket建立聊天服务器-2 5. 在Android中 ...
iOS: 学习笔记, Swift运算符定义
Swift操作符可以自行定义, 只需要加上简单的标志符即可. @infix 中置运算. 如+,-,*,/运算 @prefix 前置运算. 如- @postfix 后置运算. a++, a-- @ass ...
Java实现Http服务器(四)
(1)HTTPServer的监听启动 sun.net.httpserver.ServerImpl类中启动了Socket监听,ServerImpl的内部类Dispatch类启动了Http服务器的监听 / ...
code jam训练
https://code.google.com/codejam/contests.html http://student.csdn.net/mcs/programming_challenges
String、StringBuffer和StringBuilder——个人学习
1.首先说一下他们的名称区别: String——字符串常量,StringBuffer——字符串变量(线程安全),StringBuilder——字符串变量(非线程安全) 从名称就可以很明显的看出他们的基 ...
NWERC 2012 Problem E Edge Case
比赛的时候刷了一点小聪明,发现这个数列是卢卡斯数,一个递推关系像斐波拉契数列的数列: 我不知道怎么证明,如果哪天无意中会证了再加上: 这题唯一的难点就是大数运算: 直接用JAVA 代码: import ...
Let's go home
hdu1824:http://acm.hdu.edu.cn/showproblem.php?pid=1824 题意:中文题. 题解:这一题建边要考虑两个限制条件,一个是队伍内部的,就是假如说 a,b, ...

CBO学习----03--选择率（Selectivity）

第3章 单表选择率（Single Table Selectivity）

3.1 Getting Started

3.2 Null Values

3.3 Using Lists

3.4 Range

3.5 Two Predicates（双谓词）

3.6 多个谓词的相关问题

CBO学习----03--选择率（Selectivity）的更多相关文章

随机推荐

热门专题

第3章单表选择率（Single Table Selectivity）