[心得] SQL Server Partition(表分區) 資料分佈探討

最近在群裡有個朋友問了個問題是這樣的

用户表有一千多万行，主键是用户ID，我做了分区。但经常查询时，其它的表根据用户ID来关联，这样跨区查询，reads非常高。有什么好的处理办法？不分区的话，索引维护要好久的时间

在查看了他提供的分區資訊後，發現只有23個分區(包含一定要有的Null分區)

Null分區在這裡的定義其實很簡單，當你的資料沒有辦法放到你先前建立的分區時，就會將該資料放到所謂的Null分區(預設分區)。

因此如果在探尋分區規則時沒有依照現有的資料進行分區的設計，將會很容易導致資料偏斜(Data Bias)，一但資料出現了偏斜時在查找時就會很容易在NULL區出現過多的讀取

以今天的案例來看待，當要比對的ID不在這22個分區中時就會到NULL分區進行查找的動作。而在群友提供的資料中其實有出現了oGpI0w_ 、mGpI0w等字眼

可以想見的是，該NULL分區的資料是相當多的

以下就一個測試情境來探討在分區規則不同時的效能比較

首先建立二張結構一樣的表，資料量約一千二百萬筆

接下來分別建立給表Demo1與Demo2的表分區函數(請注意圖中的註解)
(注意，以下示範並沒有利用到分區FileGroup優化，當你用了分區時請一定要同時利用FileGroup進行優化)

一個是利用UserID前五碼分區另一個則利用前一碼進行分區

這裡要注意的是SQL Server 2016一個資料表或索引最多可以有 15,000 個資料分割

SQL Server 2005 與 2008 則需為SP2才可使用 (否則只能合計有1000個分區)

Refer : New Limit for Number of Partitions in SQL Server 2008 SP2

Demo1表分區函數

Demo2表分區函數

而在表中不重複前五碼的資料筆數約9百多萬，如下圖
(可以想見的是在NULL區中會有大量的資料存放)

接下來我們來看看分區後的Demo1與Demo2分區表資料分佈情形

Demo1表分區資料分佈

Demo2表分區資料分佈

案例:當利用LIKE做前綴查找

這裡從前述的資訊可以知道在Demo1 a0%最少有6個區需要查找

而Demo2只有一個區需要查找

接下來我們先簡單的看一下兩張表在相同查詢時IO的差異 (可以看到第二張表較優)

接下來我們仔細看一下相關的執行計畫與查找的分區數
可以發現在執行時Demo1會查找七個分區，而Demo2只會從一個分區中進行查找

案例:當從預設分區查找

這次我們簡單的查找z開頭的UserID ，從先前的資訊可以知道。

表Demo1並沒有建立z開頭的分區，因此z相關的資料將會存放到預設分區(Null區)

表Demo1的預設分區統計約有643萬筆，而表Demo2的z分區約有45萬筆

由此可見在Demo2表上查找應該會優於Demo1的(當資料筆數再更多時，差異會更大)
見下圖

以上便是今天的表分區探討，替各位總結一下。

1.在規劃表分區時，首先要注意該表的相關查詢語句，以最常用在條件式的字段做為分區依據是較佳的。

2.承上，即使使用最常用的字段做為分區依據，仍然要確認資料是否適合做為分區。

例如：即使常用的查詢字段為姓別 (男、女)，用此字段做為分區，僅能將資料最多分為三個區。在大資料時，性能並無法顯著的增加。簡單的評估可以用目前的資料筆數除以分區數，可得知每個分區的資料分佈進而做分區建立的評估依據

比如可以用下列這種簡單的語法計算每個分區數

--12228608 / 37

SELECT COUNT(1) /

(

SELECT COUNT(1) FROM

(

SELECT 1 as Counts FROM Demo1 GROUP BY SUBSTRING(UserID,1,1)

) as X

)

FROM Demo1

後記

在寫本篇時，還發現了一個需要注意的問題，當利用VARCHAR字段做為分區依據時。

在查詢時需要在該字段使用 LIKE 而不是一般的Equal (=)做為查找。
如果採用一般的Equal(=)做為查找時，該執行計畫會顯示查找了所有分區內容
具體原因如果有朋友知道，還請協助解答。

以下是查找的比較圖

使用Equal(=)查找

使用LIKE查找

本次用來查詢表分區相關資訊的語法

SELECT t.name AS TableName, i.name AS IndexName, p.partition_number,

 p.partition_id, i.data_space_id, f.function_id, f.type_desc,

 r.boundary_id, r.value AS BoundaryValue,p.rows

FROM sys.tables AS t

JOIN sys.indexes AS i

  ON t.object_id = i.object_id

JOIN sys.partitions AS p

  ON i.object_id = p.object_id AND i.index_id = p.index_id

JOIN sys.partition_schemes AS s

  ON i.data_space_id = s.data_space_id

JOIN sys.partition_functions AS f

  ON s.function_id = f.function_id

LEFT JOIN sys.partition_range_values AS r

  ON f.function_id = r.function_id and r.boundary_id = p.partition_number

WHERE t.name = '已分區表名稱' AND i.type <= 1

ORDER BY p.partition_number;

最後謝謝各位觀看囉！如果有問題歡迎在底下留言與我討論

[心得] SQL Server Partition(表分區) 資料分佈探討的更多相关文章

sql server 更新表，每天的数据分固定批次设置批次号sql
按表中的字段 UpdateTime 按每天进行编号,每天的编号都从1开始编号,并附带表的主键 cid,把数据存入临时表中 WITH temp AS (SELECT cid,updatetime, RO ...
千万级SQL Server数据库表分区的实现
千万级SQL Server数据库表分区的实现 2010-09-10 13:37 佚名数据库字号:T | T 一般在千万级的数据压力下,分区是一种比较好的提升性能方法.本文将介绍SQL Server ...
SQL Server 创建表分区
原文:SQL Server 创建表分区先准备测试表 CREATE TABLE [dbo].[Employee] ( EmployeeNo ,) PRIMARY KEY, EmployeeName ) ...
Sql server 系统表
sql server系统表详细说明 SQL Server 用户库中系统表说明名称说明备注 syscolumns 每个表和视图中的每列在表中占一行,存储过程中的每个参数在表中也占一行. sys ...
SQL Server系统表介绍与使用
关于SQL Server数据库的一切信息都保存在它的系统表格里.我怀疑你是否花过比较多的时间来检查系统表格,因为你总是忙于用户表格.但是,你可能需要偶尔做一点不同寻常的事,例如数据库所有的触发器.你可 ...
sql server 关于表中只增标识问题 C# 实现自动化打开和关闭可执行文件（或关闭停止与系统交互的可执行文件） ajaxfileupload插件上传图片功能，用MVC和aspx做后台各写了一个案例将小写阿拉伯数字转换成大写的汉字， C# WinForm 中英文实现，国际化实现的简单方法 ASP.NET Core 2 学习笔记（六）ASP.NET Core 2 学习笔记（三）
sql server 关于表中只增标识问题由于我们系统时间用的过长,数据量大,设计是采用自增ID 我们插入数据的时候把ID也写进去,我们可以采用关闭和开启自增标识没有关闭的时候 ,提示一下错 ...
Azure 意外重启, 丢失sql server master表和 filezilla
突然发现今晚网站打不开了,提示连不上数据库. ftp也连不上了. 远程连上Azure 发现机器意外重启, 丢失sql server master表和 filezilla 要重新安装. 又耗费我几个小时 ...
SQL Server 系统表简介
SQL Server 系统表简介系统目录是由描述SQL Server 系统的数据库.基表.视图和索引等对象的结构的系统表组成.SQL Server 经常访问系统目录,检索系统正常运行所需的必要信息. ...
[SQL]SQL Server数据表的基础知识与增查删改
SQL Server数据表的基础知识与增查删改由张晨辉(学生) 于19天前发表 | 阅读94次一.常用数据类型 .整型:bigint.int.smallint.tinyint .小数:decim ...

随机推荐

windows系统dos窗口全屏
第一次进入博客园 2017年12月7日之前使用dos窗口时都输入的是简短的指令,今天突然感觉小框看着不舒服,就找了一下度娘,在这里感谢万能的百度,一鞠躬. 1.win+r打开dos命令窗口 2.cm ...
SpringSecurity实现权限管理和页面导航栏动态实现
用户模块. 3 1.1 需求:获取用户名. 3 1.1.1 分析. 3 1.1.2 服务端获取用户信息. 4 1.1.3 页面获取用户信息. 5 1.2 给用户分配角色. ...
基础select语句详解
在数据库操作语句中,使用最频繁,也被认为最重要的是 SELECT 查询语句.我们已经在不少地方用到了 SELECT * FROM table_name; 这条语句用于查看一张表中的所有内容. 而 SE ...
java实现注册的短信验证码
最近在做只能净化器的后台用户管理系统,需要使用手机号进行注册,找了许久才大致了解了手机验证码实现流程,今天在此和大家分享一下. 我们使用的是榛子云短信平台, 官网地址:http://smsow.zhe ...
ASP.NET Core Web App应用第三方Bootstrap模板
引言作为后端开发来说,前端表示玩不转,我们一般会选择套用一些开源的Bootstrap 模板主题来进行前端设计.那如何套用呢?今天就简单创建一个ASP.NET Core Web MVC 模板项目为例, ...
Spring Cloud Eureka 使用 IP 地址进行服务注册
默认情况下,Eureka 使用 hostname 进行服务注册,以及服务信息的显示,那如果我们使用 IP 地址的方式,该如何配置呢?答案就是eureka.instance.prefer-ip-addr ...
MySQL 分区建索引
200 ? "200px" : this.width)!important;} --> 介绍 mysql分区后每个分区成了独立的文件,虽然从逻辑上还是一张表其实已经分成了多张 ...
安装与配置Flutter开发环境
这篇博客我们介绍了Flutter,并且对比了H5,React Native,Flutter. 由于Flutter是跨平台的开发框架,开发一次可以同时运行在Android和iOS上面,所以我们开发时最好 ...
吴恩达机器学习笔记52-异常检测的问题动机与高斯分布（Problem Motivation of Anomaly Detection& Gaussian Distribution）
一.问题动机异常检测(Anomaly detection)问题是机器学习算法的一个常见应用.这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题. 给 ...
SUSE12Sp3-Supervisor 守护.net core进程
1.安装setuptools 将setuptools-0.6c11.tar.gz安装包放到服务器上 tar zxvf setuptools-0.6c11.tar.gz cd setuptools-0. ...

[心得] SQL Server Partition(表分區) 資料分佈探討

[心得] SQL Server Partition(表分區) 資料分佈探討的更多相关文章

随机推荐

热门专题