走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串

原文:走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串

测试的结果在此处本篇详解一下原理

设计背景

由于历史原因，线上库环境数据量及其庞大，很多千万级以上甚至过亿的表。目标是让N张互相关联的表按照一张源表为基表，数据搬移归档这里我们举例N为50 每张表数据5000W

最差性能sql进化客串

2表KeyName 字段意义名称等相同从bug01 表中取出前500条不在bug02 表中的数据

最差性能：

SELECT TOP 500 a.KeyName FROM bug01 a LEFT JOIN bug02 b on a.KeyName = b.KeyName

WHERE (a.KeyName not in (select distinct b.KeyName From bug02))

ORDER BY a.KeyName asc

进化体在篇尾揭晓

详细设计

问题点：性能安全容错

流程篇为何如此设计在下文中会解释

step.1 源表数据过滤

这部分没什么好说的根据大家自己的业务场景设定不同的过滤规则

step.2 源表数据副本

程序的入口点肯定是源表了，扩展表中的内容都是以源表为Key来展开。那么这个展开的过程如何来做。

首先确定一些概念，这50表中的层级关系如何。可能直接和源表key键关联的表只有10张。

例如我统计市内所有图书馆详细信息，那么我们以图书馆为源表。图书馆关联书架、地址、会员信息。那么这3中信息我们分为一级别表。

书架关联图书类别，地址关联街道信息，会员关联用户借阅信息，那么后面3者我们继续分为二级表，......按照场景继续扩展。

方案1：使用游标循环源表根据源表key值处理和key相关的数据假设我们没批次处理500跳源表数据

　　　也就是根据图书馆ID，遍历所有节点。假设我们不分二级三级表，都是一级表我们的insert操作次数是500*50。select操作同数据量

　　　这个给谁肯定都不大乐意，而且如果再遍历2级表3级更难想象。

方案2：对源表key数据进行集合，存进变量，然后用in表达式。貌似可行。直接减少到1/500的操作次数。但是这里有个最恐怖的问题。

　　　变量都有长度，例如varchar 最大长度不能超过65535。

方案3：将源表Key做成一个查询过滤池(相对于一级表底层的sql where条件语句下面会详细介绍一下) 相对于第二种方案，我们这种似乎又将操作数提高了。

　　　不考虑层级的情况下，insert操作50。select操作50*2可以接受.

方案3扩展：对于一张大表来说操作50次也不是什么可以乐观的数字，并且这个50还有可能变成500，5000，50000。

　　　　　　更有一个问题就是，当你操作这500条的时候，可能会有数据干扰，你1秒前取得的这500条可不一定是1秒后的内容。

　　　　　　所以采取临时表策略。

　　　　   CREATE TABLE #p

	(

		OrderID varchar(50),

		primary key (OrderID)

	);

	SET @temp_text = 'INSERT INTO #p '+@KeyText

	--PRINT @temp_text

	EXEC (@temp_text)	

	SET @KeyText = 'SELECT OrderID FROM #p'

	--如果一级表关联的操作次数比较多那么可以访源表操作 以临时表取代物理表

	SET @SubKeyText = 'select 一级表_A_被关联键 From 一级表_A with(nolock) where 一级表_A_关联源表键 in (' + @KeyText+')'

	CREATE TABLE #q

	(

		OrderID varchar(50),

		primary key (OrderID)

	);

	SET @temp_text = 'INSERT INTO #q '+@SubKeyText

	EXEC (@temp_text)

	SET @SubKeyText ='SELECT OrderID FROM #q'

	--如果一级表关联的操作次数不多可以直接生成数据过滤池

	SET @SubKeyTextforA ='select 一级表_B_被二级关联键 From 一级表_B with(nolock) where 一级表_B_关联源表键 in (' + @KeyText+')'

	SET @SubKeyTextforB ='select 一级表_C_被二级关联键 From 一级表_C with(nolock) where 一级表_C_关联源表键 in (' + @KeyText+')'

	--如果存在更多层操作在此处可以继续关联资源过滤池 Demo只做到三层

SET @THKeyTextforA ='select 二级表_A_被三级关联键 From 二级表_A with(nolock) where 二级表_A_关联一级表键 in (' + @SubKeyTextforA+')'

--step.3 分表归档操作

这个环节的问题是安全事务如何控制事务的大小如何衡量如何容错以及如何将程序做得可扩展可维护

大家根据业务场景区分自己的批次范围拿虫子这篇demo来说 50张千万级大表如果是批次5000条以上事务要放在内层处理如果是5000条以下可以放在最外层

事务的大小直接影响性能的波动

容错的方案大家也可以自己设计虫子的程序员采用第三类表异常表来重置失败了就插入下一个批次直接就过滤

--将错误的批次订单号入异常表

	Insert into 异常表(@ExTable) SELECT OrderID FROM #p

--@ExTable用来存放异常数据 如果当期批次出错 则将本次批次订单信息入库@ExTable下一批次则过滤这些数据再执行

	SET @KeyText = 'SELECT TOP '+CAST(@SynSize AS VARCHAR(10))+' '+@Base_Key+' FROM +

'+@BaseTable+'+ WHERE '+@Base_Key+' not in (select '+@Base_Key+' From '+@ExTable+') '

如何让程序变的漂亮可维护

我们在存储过程中同样可以使用面试对象的思想只不过存储过程没有类这样的概念给我们那么我们不妨自己设计

用什么还是临时表

--一级 直接关联源表主键 或为二级被关联的主表

	INSERT INTO #k VALUES ('一级表_A',@Base_Key,@KeyText,'')					--一级表_A

	INSERT INTO #k VALUES ('一级表_B',@Base_Key,@KeyText,'')					--一级表_B

	INSERT INTO #k VALUES ('一级表_C',@Base_Key,@KeyText,'')					--一级表_C

--二级 规则间接关联

	--@SubKeyText相关

	INSERT INTO #k VALUES ('二级表_A','二级表_A_关联一级键',@SubKeyText,'')				--二级表_A

	INSERT INTO #k VALUES ('二级表_B','二级表_B_关联一级键',@SubKeyText,'')				--二级表_B

	INSERT INTO #k VALUES ('二级表_C','二级表_C_关联一级键',@SubKeyText,'')				--二级表_C

--特殊处理

	--自定义操作

	INSERT INTO #k VALUES ('特殊表','特殊表关联键','自定义数据过滤方式','')			

	--其他 自增列处理

	--修改订单,及其取消修改订单状态历史表

	INSERT INTO #k VALUES ('自增表',@Base_Key,@KeyText,'自定义字段')

--step.4 处理细节

游标循环临时表针对每一张表操作一次

DECLARE CUR_ORDERHEDER INSENSITIVE CURSOR FOR SELECT TableName,KeyName,temptext,colname FROM #k

	OPEN CUR_ORDERHEDER

	FETCH CUR_ORDERHEDER INTO @Cur_Table,@Cur_Key,@Cur_W,@Cur_K

		WHILE @@FETCH_STATUS = 0

			BEGIN

				 EXECUTE P_Task_Sub_Synchronization

				 @OutParam  = @OutParam OUT, @OutMessage = @OutMessage OUT,

			@KeyText =  @Cur_W,@Table= @Cur_Table,@Extension=@Extension,@IsDelSource=@IsDelSource,@KeyName=@Cur_Key,@ColName=@Cur_K

				 --SET @OutMessage = @OutMessage+@OutMessage

				 --PRINT @OutMessage

				 IF @OutParam <> 0

					 BEGIN

						SET @OutMessage = @OutMessage + @Cur_Table +'操作失败'

						ROLLBACK TRAN

						--将错误的批次订单号入异常表

						Insert into 异常表(@ExTable) SELECT OrderID FROM #p

						DROP TABLE #k

						DROP TABLE #p

						DROP TABLE #q

						RETURN

					 END

				 FETCH CUR_ORDERHEDER INTO @Cur_Table,@Cur_Key,@Cur_W,@Cur_K

			END

	ClOSE CUR_ORDERHEDER

	DEALLOCATE CUR_ORDERHEDER

--step.5 资源释放

--step.6 流程处理

这2个部分就不详细说了

最差性能sql进化过程

step.1 not in了就别再distinc了 distinc和not in都是臭名昭著的角色 not in后+dinstinc画蛇添足而已

改后sql：

SELECT TOP 500 a.KeyName FROM bug01 a LEFT JOIN bug02 b on a.KeyName = b.KeyName
WHERE (a.KeyName not in (select b.KeyName From bug02))
ORDER BY a.KeyName asc

step.2 别名别小看别名用图来说话原sql计划

改后sql：

SELECT TOP 500 a.KeyName FROM bug01 a LEFT JOIN bug02 b on a.KeyName = b.KeyName
WHERE (a.KeyName not in (select c.KeyName From bug02 c))
ORDER BY a.KeyName asc

step.3 何必要用外联直接过滤不就得了嘿嘿

改后sql：

SELECT TOP 500 a.KeyName FROM bug01 a
WHERE (a.KeyName not in (select c.KeyName From bug02 c))
ORDER BY a.KeyName asc

step.4 根据luofer同学的建议再进化一次直接EXCEPT

SELECT TOP 500 a.KeyName FROM bug01 a except
SELECT b.KeyName from bug02 b

本篇就讲到此处欢迎大家讨论

走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串的更多相关文章

走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
走向DBA[MSSQL篇] 面试官最喜欢的问题 ----索引+C#面试题客串
原文:走向DBA[MSSQL篇] 面试官最喜欢的问题 ----索引+C#面试题客串对大量数据进行查询时,可以应用到索引技术.索引是一种特殊类型的数据库对象,它保存着数据表中一列或者多列的排序结果,有 ...
走向DBA[MSSQL篇] 从SQL语句的角度提高数据库的访问性能
原文:走向DBA[MSSQL篇] 从SQL语句的角度提高数据库的访问性能最近公司来一个非常虎的dba 10几年的经验这里就称之为蔡老师吧在征得我们蔡老同意的前提下我们来分享一下蔡老给我们 ...
走向DBA[MSSQL篇] 积跬步行千里
原文:走向DBA[MSSQL篇] 积跬步行千里不知道大家对SQL系列的感不感兴趣先在这里探个路本文针对的读者为SQL菜鸟欢迎大牛驳论或者补充既然是探路篇就先说下数据过滤中的偏门匹配希望能 ...
走向DBA[MSSQL篇] - 从SQL语句的角度提高数据库的访问性能(转)
最近公司来一个非常虎的DBA,10几年的经验,这里就称之为蔡老师吧,在征得我们蔡老同意的前提下 ,我们来分享一下蔡老给我们带来的宝贵财富,欢迎其他的DBA来拍砖. 目录 1.什么是执行计划?执行计划 ...
mysql大表设计以及优化
MYSQL千万级数据量的优化方法积累https://m.toutiao.com/group/6583260372269007374/?iid=6583260372269007374 MySQL 千万级 ...
打开黑盒：从 MySQL架构设计出发，看它是如何执行一条 SQL语句的
1.把MySQL当个黑盒子一样执行SQL语句我们的系统采用数据库连接池的方式去并发访问数据库,然后数据库自己其实也会维护一个连接池,其中管理了各种系统跟这台数据库服务器建立的所有连接当我们的系统只 ...
“取出数据表中第10条到第20条记录”的sql语句+selecttop用法
1.首先,select top用法: 参考问题 select top n * from和select * from的区别 select * from table -- 取所有数据,返回无序集合 sel ...
“取出数据表中第10条到第20条记录”的sql语句+select top 使用方法
1.首先.select top使用方法: 參考问题 select top n * from和select * from的差别 select * from table -- 取全部数据.返回无序集合 ...

随机推荐

一步一步学android之事件篇——触摸事件
触摸事件顾名思义就是触摸手机屏幕触发的事件,当用户触摸添加了触摸事件的View时,就是执行OnTouch()方法进行处理,下面通过一个动态获取坐标的例子来学习OnTouchListener事件,效果如 ...
深入理解java虚拟机系列（一）：java内存区域与内存溢出异常
文章主要是阅读<深入理解java虚拟机:JVM高级特性与最佳实践>第二章:Java内存区域与内存溢出异常的一些笔记以及概括. 好了開始.假设有什么错误或者遗漏,欢迎指出. 一.概述先上 ...
64地点 Windows 8/7 根据系统 32地点PLSQL 耦合 64 地点 Oracle 11g
64地点 Windows 8/7 根据系统 32地点PL/SQL 耦合 64 地点 Oracle 11g 说明:安装后Oracle的 oci.dll 是64位的,而32位应用程序 PL/SQL ...
Windows Phone开发（43）：推送通知第一集——Toast推送
原文:Windows Phone开发(43):推送通知第一集--Toast推送好像有好几天没更新了,抱歉抱歉,最近"光荣"地失业,先是忙于寻找新去处,唉,暂时没有下文.而后又有一 ...
Java EE (8) -- Java EE Patterns
Java EE 模式目录由以下三个层组成: – 整合层(4) – 业务层(9) – 表示层(8) 涉及 Java EE 平台代码与其它类型应用程序或遗留系统的集成: 服务激活器 ...
OCP读书笔记(20) - 复制数据库
没有连接到target的复制将orcl数据库的备份复制为orcl1 一.创建orcl的备份: run{ backup database plus archivelog;} 二.复制数据库为orcl1 ...
Oracle SQL Lesson (10) - 使用DDL语句创建和管理表
数据库对象TableViewSequenceIndexSynonym 对象名称最长30个字符,不能与当前用户下其他对象重名.create table "select" as sel ...
Oracle Hints详细解释
特别介绍给大家Oracle Hints之前,让我们知道下Oracle Hints什么,然后好Oracle Hints,我们希望实际.基于成本的优化器是很聪明,在大多数情况下,将选择正确的优化,减少DB ...
如何判断一个Http Message的结束——python源码解读
HTTP/1.1 默认的连接方式是长连接,不能通过简单的TCP连接关闭判断HttpMessage的结束. 以下是几种判断HttpMessage结束的方式: 1. HTTP协议约定status ...
Code-Based Configuration (EF6 onwards)
https://msdn.microsoft.com/en-us/data/jj680699#Using

走向DBA[MSSQL篇] 针对大表 设计高效的存储过程【原理篇】 附最差性能sql语句进化过程客串

走向DBA[MSSQL篇] 针对大表 设计高效的存储过程【原理篇】 附最差性能sql语句进化过程客串的更多相关文章

随机推荐

热门专题

走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串

走向DBA[MSSQL篇] 针对大表设计高效的存储过程【原理篇】附最差性能sql语句进化过程客串的更多相关文章