第十三周翻译-《Pro SQL Server Internals, 2nd edition》

《Pro SQL Server Internals, 2nd edition》

作者：Dmitri Korotkevitch

翻译：赖慧芳

译文：

聚集索引

聚集索引指示表中数据的物理顺序，该顺序是根据聚集索引键排序的。表只能定义一个聚集索引。

让我们假设您希望在堆表上使用数据创建集群索引。作为第一步，如图2-5所示，SQL Server创建数据的另一个副本，然后根据集群键的值对其进行排序。数据页在双链表中链接，其中每个页面都包含指向链中的下一个和上一个页面的指针。这个列表称为索引的叶级，它包含实际的表数据。

图2 - 5.聚集索引结构:叶级

■注意页面上的排序顺序是由槽阵列控制。页面上的实际数据没有排序。

当叶子层包含多个页面时，SQL Server开始构建索引的中间层，如图2-6所示。

图2 - 6.聚类索引结构:中间层和叶层

中间层为每个叶级页面存储一行。它存储了两条信息:物理地址和它引用的页面索引键的最小值。唯一的例外是第一页的第一行，其中SQL Server存储NULL，而不是最小索引键值。在这样的优化下,当您插入表中键值最低的行时，SQL Server不需要更新非叶级行。

中间层上的页面也链接到双链表。SQL Server添加了越来越多的中间级别，直到有一个级别只包含单个页面。这一层称为根层，它为索引的入口点，如图2-7所示。

图2-7.聚集索引结构:根级别

正如您所看到的，索引总是具有一个叶级、一个根级和零个或多个中间级。唯一的例外是索引数据适合于单个页面。在这种情况下，SQL Server不会创建单独的根级别页面，而索引只包含单个叶级别页面。

索引中的级别数量主要取决于行和索引键大小。例如，4字节整数列上的索引在中间和根级别上需要每一行13字节。这13个字节由一个2字节的槽数组条目、一个4字节的索引键值、一个6字节的页指针和一个1字节的行开销组成，这已经足够了，因为索引键不包含可变长度和NULL列。

因此，每行可以容纳8060字节/ 13字节=每页620行。这意味着，使用一个中间层，可以存储最多620 * 620 = 384,400页的信息。如果数据行大小为200字节，那么每个叶级页面可以存储40行，索引中最多可以存储15,376,000行，其中只有三个级别。向索引中添加另一个中间级别将基本上覆盖所有可能的整数值。

■注意在现实生活中,索引碎片将减少这些数字。我们将在第六章讨论索引碎片

SQL Server可以通过三种不同的方式从索引读取数据。第一个是有序扫描。让我们假设希望从dbo运行SELECT名称。客户通过CustomerId查询下单。索引页级别上的数据已经根据CustomerId列值排序。因此，SQL Server可以从第一个页面扫描到最后一个页面的索引叶级别，并按照存储它们的顺序返回行。

SQL Server从索引的根页面开始，从根页面读取第一行。该行引用中间页，其中包含来自表的最小键值。SQL Server读取该页面并重复该过程，直到找到叶子级别上的第一个页面。然后，SQL Server开始逐个读取行，遍历页面的链表，直到读取了所有行。图2-8说明了这个过程。

图 2 - 8.命令索引扫描

前面查询的执行计划显示了集群索引扫描操作符，其有序属性设置为true，如图2-9所示。

图 2 - 9.排序索引扫描执行计划

值得一提的是，order by子句不需要触发有序扫描。有序扫描意味着SQL Server根据索引键的顺序读取数据。

SQL Server可以在前进和后退两个方向上导航索引。但是，您必须记住一个重要的方面:SQL Server在向后索引扫描期间不使用并行性。

■提示你可以检查扫描方向通过检查索引扫描或索引寻求运营商属性执行计划。但是请记住，Management Studio不会在执行计划的图形表示形式中显示这些属性。您需要打开Properties窗口，通过在执行计划中选择操作符并选择View/Properties窗口菜单项或按F4键来查看它。

SQL Server的企业版有一个称为旋转木马扫描的优化特性，它允许多个任务共享相同的索引扫描。假设会话S1扫描索引。在扫描过程中的某个时刻，另一个会话S2运行一个查询，该查询需要扫描相同的索引。通过旋转木马扫描，S2在当前扫描位置加入S1。SQL Server只读取每个页面一次，将行传递给两个会话。

当S1扫描到达索引的末尾时，S2从索引的开头开始扫描数据，直到S2扫描开始的那一点。旋转木马扫描是另一个例子，说明为什么不能依赖索引键的顺序，以及为什么在重要的时候应该始终指定order BY子句。

排序扫描之后的下一个访问方法称为分配顺序扫描。SQL服务器通过IAM页面访问表数据，这与它通过堆表访问表数据的方式类似。从dbo中选择的名称。具有(NOLOCK)查询的客户和图2-10演示了这种方法。图2-11显示了查询执行计划。

图2 - 10.分配顺序扫描

图2 - 11.分配顺序扫描执行计划

不幸的是，SQL Server在使用分配顺序扫描时不容易检测到。如果执行计划中的Ordered属性为false，则表示SQL Server并不关心是否按照索引键的顺序读取行，也不关心是否使用了分配顺序扫描。

分配顺序扫描可以更快地扫描大型表，尽管它有较高的启动成本。当表很小时，SQL Server不使用这种访问方法。另一个重要的考虑因素是数据一致性。SQL Server在具有集群索引的表中不使用转发指针，分配顺序扫描可能产生不一致的结果。由于页面分割导致的数据移动，可以多次跳过或读取行。因此，SQL Server通常避免使用分配顺序扫描，除非它在未提交或可序列化事务隔离级别读取数据。

■注意我们将讨论页面分裂和分化在第六章,“索引碎片,”和在第三部分讨论锁定和数据一致性,“锁定、阻塞和并发性”。

最后一种索引访问方法称为索引寻道。从dbo中选择的名称。其中CustomerId在4到7之间的查询和图2-12说明了操作。

图2 - 12.指数寻求

为了从表中读取行范围，SQL Server需要从范围中找到键值最小的行，即4。SQL Server从根页面开始，其中第二行引用键值最小为350的页面。它大于我们正在寻找的键值(4)，SQL Server读取根页面上第一行引用的中间层数据页(1:170)。

类似地，中间页面将SQL Server引导到第一个叶级页面(1:176)。SQL Server读取该页面，然后读取定制id为4和5的行，最后从第二个页面读取剩下的两行。

执行计划如图2-13所示。

图2 - 13.索引查找执行计划

正如您所猜测的，索引查找比索引扫描更有效，因为SQL Server只处理行和数据页的子集，而不是扫描整个表。

从技术上讲，有两种索引查找操作。第一个称为单例查找，有时也称为点查找，SQL Server在其中查找并返回一行。您可以以CustomerId = 2谓词为例。另一种类型的索引查找操作称为范围扫描，它要求SQL Server查找键的最低或最高值，并扫描(向前或向后)这组行，直到扫描范围结束。CustomerId在4到7之间的谓词将导致范围扫描。这两种情况都显示为执行计划中的索引查找操作。

正如您所猜测的，范围扫描完全有可能强制SQL Server处理来自索引的大量甚至所有数据页。例如，如果将查询更改为使用WHERE CustomerId >谓词，SQL Server将读取所有行/页，即使在执行计划中显示了索引查找操作符。您必须记住这种行为，并在查询性能调优期间始终分析范围扫描的效率。

关系数据库中有一个概念叫SARGable谓词，它代表查找薪资。如果SQL Server可以使用索引查找操作(如果存在索引)，则谓词是可SARGable。简而言之，当SQL Server能够隔离要处理的单个值或索引键值范围时，谓词是可SARGable的，从而限制了谓词计算期间的搜索。显然，使用可SARGable谓词编写查询并在任何可能的情况下使用索引搜索是有益的。

SARGable谓词包括以下操作符:=、>、>=、<、<=、IN、BETWEEN和LIKE(在前缀匹配的情况下)。非sargable操作符包括NOT、<>、LIKE(在非前缀匹配的情况下)和NOT in。

使谓词不可sargable的另一种情况是对表列使用函数或数学计算。SQL Server必须为它处理的每一行调用函数或执行计算。幸运的是，在某些情况下，您可以重构查询，使这些谓词成为可SARGable。表2-1显示了一些例子。

表2 - 1.重构不可SARGable谓词到可SARGable谓词的示例

您必须记住的另一个重要因素是类型转换。在某些情况下，您可以使用不正确的数据类型使谓词不可sargable。让我们使用varchar列创建一个表，并用一些数据填充它，如清单2-6所示。

清单2 - 6。SARG谓词和数据类型:测试表的创建

create table dbo.Data

(

VarcharKey varchar(10) not null,

Placeholder char(200)

);

create unique clustered index IDX_Data_VarcharKey

on dbo.Data(VarcharKey);

;with N1(C) as (select 0 union all select 0) -- 2 rows

,N2(C) as (select 0 from N1 as T1 cross join N1 as T2) -- 4 rows

,N3(C) as (select 0 from N2 as T1 cross join N2 as T2) -- 16 rows

,N4(C) as (select 0 from N3 as T1 cross join N3 as T2) -- 256 rows

,N5(C) as (select 0 from N4 as T1 cross join N4 as T2) -- 65,536 rows

,IDs(ID) as (select row_number() over (order by (select null)) from N5)

insert into dbo.Data(VarcharKey)

select convert(varchar(10),ID) from IDs;

集群索引键列被定义为varchar，尽管它存储整数值。现在，让我们运行两个选择，如清单2-7所示，并查看执行计划。

清单2 - 7日.SARG谓词和数据类型:使用整型参数进行选择

declare

@IntParam int = '200'

select * from dbo.Data where VarcharKey = @IntParam;

select * from dbo.Data where VarcharKey = convert(varchar(10),@IntParam);

如图2-14所示，对于integer参数，SQL Server扫描集群索引，将varchar转换为每一行的整数。在第二种情况下，SQL Server在开始时将整型参数转换为varchar，并使用更高效的集群索引查找操作。

图2 - 14.SARG谓词和数据类型:具有整型参数的执行计划

■提示注意连接谓词的列数据类型。隐式或显式数据类型转换会显著降低查询的性能。

在unicode字符串参数的情况下，您将观察到非常类似的行为。让我们运行清单2-8所示的查询。图2-15显示了语句的执行计划。

清单2 - 8.SARG谓词和数据类型:使用字符串参数进行选择

select * from dbo.Data where VarcharKey = '200';

select * from dbo.Data where VarcharKey = N'200'; -- unicode parameter

图2-15.S ARG谓词和数据类型:带有String参数的执行计划

如您所见，对于varchar列，unicode字符串参数是不可sargable的。这是一个比看上去大得多的问题。虽然很少以这种方式编写查询，但如清单2-8所示，现在大多数应用程序开发环境都将字符串视为unicode。结果，SQL Server客户端库为字符串对象生成unicode (nvarchar)参数，除非参数数据类型明确指定为varchar。这使得谓词non-SARGable，而且由于不必要的扫描，甚至在索引varchar列时，也会导致性能下降。

■重要总是在客户机应用程序指定参数的数据类型。例如，在ADO中。使用SqlDbType Parameters.Add (“@ParamName”.Varchar、<大小>).Value = stringVariable而不是Parameters.Add (“@ParamName”)..Value = stringVariable重载。在ORM框架中使用映射显式地指定类中的非unicode属性。

值得一提的是，对于nvarchar unicode数据列，varchar参数是可SARGable的。

第十三周翻译-《Pro SQL Server Internals, 2nd edition》的更多相关文章

第十五周翻译-《Pro SQL Server Internals, 2nd edition》
<Pro SQL Server Internals, 2nd edition> 作者:Dmitri Korotkevitch 翻译:赖慧芳译文: 55-58页第三章统计 SQL Se ...
第十二周翻译-《Pro SQL Server Internals, 2nd edition》
<Pro SQL Server Internals, 2nd edition> 作者:Dmitri Korotkevitch 翻译:赖慧芳译文: 专业SQL服务器内部了解在引擎盖下发生 ...
第十四周翻译-《Pro SQL Server Internals, 2nd edition》
<Pro SQL Server Internals, 2nd edition> 作者:Dmitri Korotkevitch 翻译:赖慧芳译文: 设计和优化索引定义一种应用于所有地方的 ...
《Pro SQL Server Internals, 2nd edition》的CHAPTER 2 Tables and Indexes中的Clustered Indexes一节（翻译）
<Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...
《Pro SQL Server Internals, 2nd edition》的CHAPTER 3 Statistics中的Introduction to SQL Server Statistics、Statistics and Execution Plans、Statistics Maintenance(译）
<Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...
《Pro SQL Server Internals, 2nd edition》中CHAPTER 7 Designing and Tuning the Indexes中的Clustered Index Design Considerations一节（译）
<Pro SQL Server Internals> 作者: Dmitri Korotkevitch 出版社: Apress出版年: 2016-12-29页数: 804定价: USD 59 ...
《Pro SQL Server Internals, 2nd edition》
设计和优化索引定义一种应用于所有地方的索引策略是不可能的.每个系统都是独特的,需要基于工作,业务需求和其他一些因素的自己的索引方法.然而,有几个设计的注意事项和指导方针可以被应用到每个系统. 在我们 ...
《Pro SQL Server Internals, 2nd edition》的CHAPTER 1 Data Storage Internals中的Data Pages and Data Rows(翻译)
数据页和数据行数据库中的空间被划分为逻辑8KB的页面.这些页面是以0开始的连续编号,并且可以通过指定文件ID和页号来引用它们.页面编号都是连续的,这样当SQL Server增长数据库文件时,从文件中 ...
《Pro SQL Server Internals, 2nd edition》15w
第三章统计 SQL Server查询优化器在为查询选择执行计划时使用基于成本的模型.它估计不同执行计划的成本,并选择成本最低的一个.但是,请记住,SQL Server并不搜索可用于查询的最佳执行计划 ...

随机推荐

集训队日常训练20181201 C 1003 : 种类数
时间限制(普通/Java):2000MS/6000MS 内存限制:65536KByte总提交: 8 测试通过:5 描述一共有 n个数,第 i 个数是 xi ,其中xi ...
Phpstorm数组对齐设置
进入 Editor > Code Style > PHP > Wrapping and Braces , 勾选 Align consecutive assignments 和 Ali ...
Qt551.主窗体Margin
1.直接拖控件的方式,Margin的设置不是在 MainWindow中而是在 MainWindow下面的centralwidget中,如下图: 2. 3. 4. 5.
Venom- Eminem
I got a song filled with shit for the strong willed. 我写了一首充满戾气的歌献给意志坚强的人. When the world give you a ...
亚马逊促销活动Promotion②：Money Off(满减折扣)的设置教程
满减.折扣是放之四海皆有效的促销手段,虽然亚马逊对卖家有诸多限制,但这个促销方式却是允许的,对亚马逊的卖家而言,这对提升商品销量.打造爆款都是极好的.今天小编来讲讲亚马逊的Money Off要怎么设置 ...
强力推荐！那些你不能错过的 GitHub 插件和工具
以代码托管平台起家的 GitHub 网站,已然成为全球程序员工作和生活中不可或缺的一份子.从优秀的企业,到优秀的程序员,都将自己最优秀的代码作品存放在这片开源净土里,供彼此学习交流.\\LS--201 ...
2018 HDU多校第四场赛后补题
2018 HDU多校第四场赛后补题自己学校出的毒瘤场..吃枣药丸 hdu中的题号是6332 - 6343. K. Expression in Memories 题意: 判断一个简化版的算术表达式是否 ...
js中for(var key in o ){};用法小记
o不只可以是对象,key也不只可以是对象中的键. o也可以是一个数组,这时候的key就是数组的下标,从"0"开始,注意下标“0”是个字符串类型. 但是这种循环在 IE8浏览器下对 ...
printf()、sprintf()、vprintf()、vsprintf()（转）
转自http://sumsung753.blog.163.com/blog/static/14636450120112151092934/ 一.printf() printf()函数优点在于可以格式化 ...
【vue学习】vue 2.0版本以上创建项目的的步骤
一.环境准备 1.vue项目依赖 node.js npm,需要先安装node和npm,先检查本地是否安装node.npm 快捷键win+r 输入cmd 弹出操作框,如果电脑已经安装git,直接右 ...

第十三周翻译-《Pro SQL Server Internals, 2nd edition》

第十三周翻译-《Pro SQL Server Internals, 2nd edition》的更多相关文章

随机推荐

热门专题