SQL Server信息偏差影响表联结方式统计

SQL Server统计信息偏差影响表联结方式案例浅析

我们知道数据库中的统计信息的准确性是非常重要的。它会影响执行计划。一直想写一篇关于统计信息影响执行计划的相关博客，但是都卡在如何构造一个合适的例子上，所以一直拖着没有写。巧合，最近在生产环境中遇到这么一个案例，下面对案例中的相关信息做了脱敏处理，有些中间步骤也省略了，只关注核心部分SQL。如下所示，同事反馈一个SQL语句执行很慢。

UPDATE  b

SET     b.[Status] = '已扫描，未签收' ,

        b.[Time] = pr.CreatedDate

FROM    #Batch b

        JOIN WDPM.PdaRecords pr WITH ( NOLOCK ) ON b.Batch_No = pr.OrderNo

                                                              AND pr.FunctionName = '[WDPM].[usp_SaveOutOrder]'

WHERE   b.[Status] = '已打单，未扫描'

        AND pr.CreatedDate > b.[Time];

如下截图所示，这个SQL语句基本上耗时271秒。一个临时表与一个表做嵌套循环连接（Nested Loops）。因为表WDPM.PdaRecords只有一个聚集索引，所以执行计划中，这个表走聚集索引扫描。

注意：这里表WDPM.PdaRecords本身缺少合适的索引，只有一个聚集索引。后面展开讲述这个问题.这里先围绕统计信息的准确性对执行计划的影响来展开讲述。

物理表WDPM.PdaRecords的数据量为2505369（当然这个是一直在变化的。这个数值仅仅是实验前的检测记录，一直有会话对其进行DML操作，所以数据会变化，所以这里没有列出统计信息截图）。

我们看到Table Scan部分，预估行数（Estimated Number of Rows）为1，实际行数为150。这个偏差已经比较大了。

对于物理表WDPM.PdaRecords而言，基数估计的预估行数（Estimated Number of Rows）为921771，但是由于嵌套循环连接，所以累加起来的实际行数（Actual Number of Rows）为： 921771*150 =138265650 。

我们知道嵌套循环（Nested Loops）算法的时间复杂度为N*M， N的预估值从1变成了150 ，这里面的偏差就大了（因为每次聚集索引扫描的开销也很大）。所以导致优化器在表的物理连接方式上选择了嵌套循环（Nested Loops), 因为预估的代价是很小的。但是实际因为统计信息的误差，导致这个代价放大了150倍。那么如果我们更新临时表的统计信息呢？然后执行这个SQL，会有什么变化呢？

如下所示，我们在执行SQL语句前，更新一下临时表的统计信息。发现优化器在获取了准确的统计信息后，在表的物理连接上选择了Hash Join方式。而且SQL语句耗时变成了1秒多。为什么呢？因为优化器发现选择Nested Loops的代价远远高于 Hash Join。所以它在获取了准确的信息后，作出了最优选择。之前之所以生成了一个错误的执行计划，就是因为它得到的“信息”不准确，导致它作出了错误的抉择。这个就好比你获取了错误的信息，作出了错误的选择，购买了一只错误的股票，而巴菲特由于掌握了准确的行业信息，作出了正确的选择。购买了几只购票都大涨了。

UPDATE STATISTICS #Batch WITH FULLSCAN;

UPDATE  b

SET     b.[Status] = '已扫描，未签收' ,

        b.[Time] = pr.CreatedDate

FROM    #Batch b

        JOIN WDPM.PdaRecords pr WITH ( NOLOCK ) ON b.Batch_No = pr.OrderNo

                                                              AND pr.FunctionName = '[WDPM].[usp_SaveOutOrder]'

WHERE   b.[Status] = '已打单，未扫描'

        AND pr.CreatedDate > b.[Time];

当然，了解到这里，还远远没有结束。我们发现表WDPM.PdaRecords 只有一个聚集索引，而且聚集索引位于Iden自增字段上，从另外一个角度来看，这个表其实是缺少合适的索引的。那么我们可以创建一个索引。

CREATE INDEX IX_PdaRecords_N1 ON wdpm.PdaRecords(OrderNo,FunctionName)

创建索引后，即使不更新临时表#Batch的统计信息，我们发现执行计划也会走嵌套循环（Nested Loops)，而不会走Hash Join了。这个又是什么原因呢？

此处截图，是第二次执行SQL，临时表的数据变化了（生成临时表的数据的SQL有好几个，每次执行获取的数据都会有部分变化）

因为有了合适的索引，趋近准确的统计信息，以及谓词下推（predicate push down），基数(Cardinality)的预估行数（Esitmted Row Size）为35.0545 与实际行数（Actual Number of Rows）为666，这样即使循环次数为140. 总的访问记录数为140*666=93240 ，这个是远远小于之前错误执行计划的138265650 。所以即使临时表的#Batch的统计信息有误，但是优化器还是生成了一个不错的执行计划。这样SQL的执行时间也就缩短到了1秒内.

这个案例仅仅是为了展示：统计信息的准确与否，会导致优化器生成的执行计划选择不同的表连接方式，例如从嵌套循环（Nested Loops)变成Hash Join。仅仅是为了说明统计信息准确的重要性。

作者：潇湘隐者

出处：http://www.cnblogs.com/kerrycode/

SQL Server信息偏差影响表联结方式统计的更多相关文章

SQL Server统计信息偏差影响表联结方式案例浅析
我们知道数据库中的统计信息的准确性是非常重要的.它会影响执行计划.一直想写一篇关于统计信息影响执行计划的相关博客,但是都卡在如何构造一个合适的例子上,所以一直拖着没有写.巧合,最近在生产环境中遇到 ...
Sql server中如何将表A和表B的数据合并（乘积方式）
sql server中如何将表A 和表B的数据合并成乘积方式,也就是说表A有2条数据,表B有3条数据,乘积后有6条数据, 这就要用到sql中的笛卡尔积方式了 1.什么是笛卡尔积笛卡尔积在SQL中的实 ...
SQL Server中的三种Join方式
1.测试数据准备参考:Sql Server中的表访问方式Table Scan, Index Scan, Index Seek 这篇博客中的实验数据准备.这两篇博客使用了相同的实验数据. 2.SQ ...
SQL Server中数据库文件的存放方式，文件和文件组
原文地址:http://www.cnblogs.com/CareySon/archive/2011/12/26/2301597.html SQL Server中数据库文件的存放方式,文件和文件组 ...
MS SQL SERVER 中的系统表
MS SQL SERVER 中的系统表序号名称说明备注 1 syscolumns 每个表和视图中的每列在表中占一行,存储过程中的每个参数在表中也占一行. 2 syscomments 包含每 ...
Sql Server系列：数据表操作
表是用来存储数据和操作数据的逻辑结构,用来组织和存储数据,关系数据库中的所有数据都表现为表的形式,数据表由行和列组成.SQL Server中的数据表分为临时表和永久表,临时表存储在tempdb系统数据 ...
SQL Server跨库复制表数据错误的解决办法
SQL Server跨库复制表数据的解决办法跨库复制表数据,有很多种方法,最常见的是写程序来批量导入数据了,但是这种方法并不是最优方法,今天就用到了一个很犀利的方法,可以完美在 Sql Serv ...
SQL Server 执行计划中的扫描方式举例说明
SQL Server 执行计划中的扫描方式举例说明原文地址:http://www.cnblogs.com/zihunqingxin/p/3201155.html 1.执行计划使用方式选中需要执行的 ...
SQL Server 2014内存优化表的使用场景
SQL Server 2014内存优化表的使用场景最近一个朋友找到走起君,咨询走起君内存优化表如何做高可用的问题大家知道,内存优化表是从SQL Server 2014开始引入,可能大家对内存优化表 ...

随机推荐

svn 删除svn项目命令
svn delete svn://127.0.0.1:3690/project -m delete
Python语言:Day11练习题
24.实现一个整数加法计算器:如:content=input('请输入内容:')#如:5+9或5+ 9或5 + 9 content = input("请输入需要计算的:") #如: ...
python机器可读数据-XML
XML XML是一门标记语言.也就是说,它具有包含格式化数据的文档结构. XML文档本质上只是格式特殊的数据文件. 在XML文件中有两个位置可以保存数据值:2个标签之间,标签的属性. 导入XML数据 ...
windows环境下，spring boot服务使用docker打包成镜像并推送到云服务器私有仓库
最近在淘宝上学习springcloud教程,其中有几节课是讲解讲本地springboot服务打包成镜像并推送到云服务器私有仓库,但是教程里面用的事Mac环境,我的是Windows环境,而且课程里面没有 ...
ansible资产配置
参考链接:https://www.cnblogs.com/iois/p/6403761.html ansible主机组的使用,我们在对一个集群进行管理的时候集群会有很多角色,在执行统一命令操作的时候我 ...
ykit入门
init lint pack server watch 1.创建现有工程的ykit项目在项目文件夹下 ykit init 2.lint 检查当前项目的代码质量手动执行代码可验证代码正误 yk ...
最全面的Redis命令行查阅手册（收藏查看）
Redis是用C语言实现的,一般来说C语言实现的程序“距离”操作系统更近,执行速度相对会更快. Redis使用了单线程架构,预防了多线程可能产生的竞争问题. 作者对于Redis源代码可以说是精打细磨, ...
shell中脚本与函数的使用策略
脚本:运行的副作用不影响父环境,开辟了fork子进程; 函数:副作用,定义的变量,数据默认直接添加到了调用者的环境,也是它自己的环境;不想副作用影响调用者环境,就必须主动用local修饰; shell ...
字符串a-b
#include<iostream> #include<stdio.h> #include<algorithm> #include<cmath> #in ...
使用mbedtls的使用说明和AES加密方法（原来的PolarSSL）
关于PolarSSL mbed TLS(以前称为PolarSSL)是TLS和SSL协议的实现,并且需要相应的加密算法和支持代码.这是双重许可与Apache许可证 2.0版(与GPLv2许可也可).网站 ...

SQL Server信息偏差影响表联结方式统计

SQL Server统计信息偏差影响表联结方式案例浅析

SQL Server信息偏差影响表联结方式统计的更多相关文章

随机推荐

热门专题