在SSIS 2012中使用CDC(数据变更捕获)
最新项目稍有空隙,开始研究SQL Server 2012和2014的一些BI特性,参照(Matt)的一个示例,我们开始体验SSIS中的CDC(Change Data Capture,变更数据捕获)。
注:如果需要了解关于SQL Server 2008中的CDC,请看这里http://www.cnblogs.com/downmoon/archive/2012/04/10/2439462.html),本文假定读者对CDC的工作方式已有所了解。^_^。
我们分三步完成实例:
1、准备基础数据;
2、设计一个初始包;
3、在2的基础上设计一个增量包。
首先请完成以下准备安装:
(1)Visual studio 2012或Visual Studio 2012 Shell (Isolated) Redistributable Package
http://www.microsoft.com/en-us/download/details.aspx?id=30678
http://www.microsoft.com/en-us/download/details.aspx?id=30670
(2)SQL Server Data Tools - Business Intelligence for Visual Studio 2012
http://www.microsoft.com/zh-cn/download/details.aspx?id=36843
(2)SQL Server 2012企业版或开发版
http://www.microsoft.com/en-us/download/details.aspx?id=29066
(3)示例数据库AdventureWorksDW2012(本文必须,如果自建表则不必)
http://msftdbprodsamples.codeplex.com/releases/view/55330
好了,开始第一步:
/*
-- =============================================
-- 创建测试数据库及数据表,借助AdventureWorksDW2012示例数据库
---Generate By downmoon(邀月),3w@live.cn
-- =============================================
*/
--Create database CDCTest
--GO
--USE [CDCTest]
--GO --SELECT * INTO DimCustomer_CDC
--FROM [AdventureWorksDW2012].[dbo].[DimCustomer]
--WHERE CustomerKey < 11500; --select * from DimCustomer_CDC;
/*
-- =============================================
-- 启用数据库级别CDC,只对企业版和开发版有效
---Generate By downmoon(邀月),3w@live.cn
-- =============================================
*/
USE
[CDCTest]
GO EXEC sys.sp_cdc_enable_db
GO -- add a primary key to the DimCustomer_CDC table so we can enable support for net changes
IF NOT EXISTS (SELECT * FROM sys.indexes WHERE object_id =
OBJECT_ID(N'[dbo].[DimCustomer_CDC]') AND name = N'PK_DimCustomer_CDC')
ALTER TABLE [dbo].[DimCustomer_CDC] ADD CONSTRAINT
[PK_DimCustomer_CDC] PRIMARY KEY CLUSTERED
(
[CustomerKey] ASC
)
GO /*
-- =============================================
-- 启用表级别CDC
---Generate By downmoon(邀月),3w@live.cn
-- =============================================
*/
EXEC sys.sp_cdc_enable_table
@source_schema = N'dbo',
@source_name = N'DimCustomer_CDC',
@role_name = N'cdc_admin',
@supports_net_changes = 1 GO
/*
-- =============================================
-- 创建一个目标表,与源表(Source)有相同的表结构
--注意,在生产环境中,完全可以是不同的实例或服务器,本例为了方便,在同一个数据库实例的同一个数据库中演示
---Generate By downmoon(邀月),3w@live.cn
-- =============================================
*/
SELECT TOP 0 * INTO DimCustomer_Destination
FROM DimCustomer_CDC
--select @@version;
select * from DimCustomer_Destination;
第二步:创建初始包
-- =============================================
-- 我们使用两个包来完成示例,一个初始包完成数据的初始加载,一个增量包完成数据的变更捕获
---Generate By downmoon(邀月),3w@live.cn
-- =============================================
初始包包含如下逻辑:
(1)使用CDC Control Task标记初始加载开始LSN(Use the CDC Control Task to mark the initial load start LSN)
(2)转换所有源表数据到目标表(Transfer all of the data from the source table into our destination table)
(3)使用CDC Control Task标记初始加载结束LSN(Use the CDC Control Task to mark the initial load end LSN)
示例:http://code.msdn.microsoft.com/My-First-Integration-fa41c0b1
新建一个SSIS项目,创建一个包“Initial Load”,如下图:
新建两个CDC Control Task,分别命名为“CDC Control Task Start”和“CDC Control Task End”,分别对应属性为“Mark initial load start”和""Mark initial load end"
连接管理器均为ADO.NET方式,其他属性如下图:
中间加入一个“Data Flow Task”,属性默认。
此时,运行包,可见CDC_States有初始标记。
第三步:创建增量包
增量包包含如下逻辑:
(1)创建一个源数据库的连接管理器(Create a connection manager for the Source database)
(2)设置CDC运算符以获取处理边界(Set the CDC Control Operation to Get processing range)
(3)创建一个新的CDC状态变量(CDC_state)(Create a new CDC state variable (CDC_state))
(4)创建一个目标数据库的连接管理器(Create a connection manager for the Destination database)
(5)选择前面初始加载包创建的状态表(Select the state table (this was created by the Initial Load package) – [dbo].[cdc_states])
(6)设置状态名称(必须匹配初始加载包使用过的状态名称,this must match what was used in the Initial Load package (CDC_State))
在项目中创建一个新包,命名为“Incremental Load”
在包的"Control Flow"视图中,自上而下分别手动6个Task,顺序如下图,除去上面用到的三个Task,其余均为Execute SQL Task
注意:CDC Control Task End的CDC运算符为MARK Process Range,CDC Control Task Start的CDC运算符为Get Process Range
其余4个Execute SQL Task的SQL语句如下:
--Create stage Tables
IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[stg_DimCustomer_UPDATES]') AND type in (N'U'))
BEGIN
SELECT TOP 0 * INTO stg_DimCustomer_UPDATES
FROM DimCustomer_Destination
END IF NOT EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[stg_DimCustomer_DELETES]') AND type in (N'U'))
BEGIN
SELECT TOP 0 * INTO stg_DimCustomer_DELETES
FROM DimCustomer_Destination
END
-- batch update
UPDATE dest
SET
dest.FirstName = stg.FirstName,
dest.MiddleName = stg.MiddleName,
dest.LastName = stg.LastName,
dest.YearlyIncome = stg.YearlyIncome
FROM
[DimCustomer_Destination] dest,
[stg_DimCustomer_UPDATES] stg
WHERE
stg.[CustomerKey] = dest.[CustomerKey]
-- batch delete
DELETE FROM [DimCustomer_Destination]
WHERE[CustomerKey] IN
(
SELECT [CustomerKey]
FROM [dbo].[stg_DimCustomer_DELETES]
)
-- truncate table
truncate table [dbo].[stg_DimCustomer_DELETES]
truncate table [dbo].[stg_DimCustomer_UPDATES]
最关键的一步,选中CDC Control Task Start,并切换到Data Flow,自上而下分别拖动CDC Source,CDC Splitter Transformer,三个ADO.NET Destination,如下图:
其中三个的目标表分别为:[DimCustomer_Destination],stg_DimCustomer_DELETES,stg_DimCustomer_UPDATES。
而CDC Source的连接管理器属性如下图:
此时,可运行增量包,但我们不会看到任何运行结果,因为此时我们还没有进行数据的Insert或Update操作。
下来我们提供一个脚本,测试下效果:
-- =============================================
-- 更新一些数据,以显示SSIS 2012中CDC的效果
---Generate By downmoon(邀月),3w@live.cn
-- ============================================= USE [CDCTest]
GO -- Transfer the remaining customer rows
SET IDENTITY_INSERT DimCustomer_CDC ON INSERT INTO DimCustomer_CDC
(
CustomerKey, GeographyKey, CustomerAlternateKey, Title, FirstName,
MiddleName, LastName, NameStyle, BirthDate, MaritalStatus,
Suffix, Gender, EmailAddress, YearlyIncome, TotalChildren,
NumberChildrenAtHome, EnglishEducation, SpanishEducation,
FrenchEducation, EnglishOccupation, SpanishOccupation,
FrenchOccupation, HouseOwnerFlag, NumberCarsOwned, AddressLine1,
AddressLine2, Phone, DateFirstPurchase, CommuteDistance
)
SELECT CustomerKey, GeographyKey, CustomerAlternateKey, Title, FirstName,
MiddleName, LastName, NameStyle, BirthDate, MaritalStatus,
Suffix, Gender, EmailAddress, YearlyIncome, TotalChildren,
NumberChildrenAtHome, EnglishEducation, SpanishEducation,
FrenchEducation, EnglishOccupation, SpanishOccupation,
FrenchOccupation, HouseOwnerFlag, NumberCarsOwned, AddressLine1,
AddressLine2, Phone, DateFirstPurchase, CommuteDistance
FROM [AdventureWorksDW2012].[dbo].[DimCustomer]
WHERE CustomerKey =11502 SET IDENTITY_INSERT DimCustomer_CDC OFF
GO -- give 10 people a raise
UPDATE DimCustomer_CDC
SET
YearlyIncome = YearlyIncome + 10
WHERE
CustomerKey >= 11000 AND CustomerKey <= 11010 GO
此时,我们可以看到变更捕获的结果:
如果您觉得还不够直观,请"Enable Data Viewer",
至此,一个SSIS 2012中CDC的实例演示结束,如果还有进一步的研究,请移驾MSDN,下面有链接。本文也提供示例项目包,以作研究之用。
本文参考:
http://msdn.microsoft.com/en-us/library/bb895315.aspx
在SSIS 2012中使用CDC(数据变更捕获)的更多相关文章
- 在SQL Server 2012中实现CDC for Oracle
在上篇在SSIS 2012中使用CDC(数据变更捕获)中,介绍了如何在SSIS 2012中使用CDC,本文在此基础上介绍,如何通过Attunity提供的Change Data Capture Desi ...
- 使用SQLServer 2008的CDC功能实现数据变更捕获
原文:使用SQLServer 2008的CDC功能实现数据变更捕获 最近由于工作需要,研究了一下2008 CDC功能,觉得还不错,下面整理了一下研究过程,虽然比较粗略,但是基本上能用了,如果有补充请大 ...
- Linux 中的网络数据包捕获
Linux 中的网络数据包捕获 Ashish Chaurasia, 工程师 简介: 本教程介绍了捕获和操纵数据包的不同机制.安全应用程序,如 VPN.防火墙和嗅探器,以及网络应用程序,如路由程序,都依 ...
- SqlServer Change Data Capture(CDC)数据变更捕获
最近在使用SqlServer2008r2数据库做系统的时候,在某些重要的.经常涉及到修改的表上,想加上一些恢复机制,一开始想找找看看有没有类似Oracle数据库闪回那样的功能,后来发现CDC的功能可以 ...
- 使用SQL Server 的CDC功能实现数据变更捕获
USE t; GO --开启某个数据库的CDC功能 exec sys.sp_cdc_enable_db GO --is_cdc_enabled栏位为1代表开启CDC功能了 SELECT is_cdc_ ...
- SQL Server 2008 CDC增量变更捕获详解
1 背景: 随着公司业务的成长,数据量也随之的不断增长.随之而来的问题是在做ETL的时候,时间花费也越来越长.为了节省时间开销,我们只想要更新最新的数据,不想要把公司历年所有的数据都进行处理.这种情况 ...
- SQLSERVER|CDC日志变更捕获机制
一.什么是CDC? 变更数据捕获(Change Data Capture ,简称 CDC)记录 SQL Server 表的插入.更新和删除活动.SQLServer的操作会写日志,这也是CDC捕获数据的 ...
- SQLSERVER|CDC 日志变更捕获机制
先说一下什么是cdc ,cdc 变更数据捕获(Change Data Capture ,简称 CDC)记录 SQL Server 表的插入.更新和删除活动.SQLServer的操作会写日志,这也是CD ...
- SQL Server 2012中快速插入批量数据的示例及疑惑
SQL Server 2008中SQL应用系列--目录索引 今天在做一个案例演示时,在SQL Server 2012中使用Insert语句插入1万条数据,结果遇到了一个奇怪的现象,现将过程分享出来,以 ...
随机推荐
- .NET领域驱动设计—实践(穿过迷雾走向光明)
阅读目录 开篇介绍 1.1示例介绍 (OnlineExamination在线考试系统介绍) 1.2分析.建模 (对真实业务进行分析.模型化) 1.2.1 用例分析 (提取系统的所有功能需求) 1.3系 ...
- 尝试一下sql server2016里面的json功能
前2天下载了一个2016的rc版本来玩一下,首先感觉是~开发者版本免费啦!!撒花!!!另外一个东西,sql server 2016能支持json 的解析和应用啦,虽然我不知道它的性能如何,先来一发测试 ...
- MYSQL:使用\G参数改变输出结果集的显示方式
在mysql命令行工具中执行查询时,当表的列很多的时候显示很乱. 上面的显示你肯定看不清楚吧.以上方式是默认以列(表格)形式显示的.那怎么以行(表单)的方式显示呢,请看下面 OK,搞定. 参考文档:h ...
- 必须知道的八大种排序算法【java实现】(一) 冒泡排序、快速排序
冒泡排序 冒泡排序是一种简单的排序算法.它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来.走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成.这个 ...
- LNMP环境搭建
LNMP环境搭建 Linux + Nginx + MySQL + PHP PHP是一种脚本语言,当前中国乃至世界上使用PHP语言开发的网站非常普遍 Nginx是一个web服务软件,和apache是一类 ...
- Nagios监控ganglia的指标
这是nagios与ganglia整合的一部分内容 . 通常我们会把ganglia的监控发送给一个主机,我们可以在这个主机上执行nc localhost 8649 可以获取到所有发往这个主机的信息,以x ...
- Eclipse RCP实用小技巧
1.插件Plugin工程的build.properties中增加一行,javacDefaultEncoding.. = UTF 2.插件Plugin工程的Runtime的classpath中加入.
- 大话设计模式C++版——表驱动法改造简单工厂
上回<大话设计模式C++版——简单工厂模式>中指出了简单工厂模式的缺陷,即违背了开发—封闭原则,其主要原因是由于switch的判断结构的使用,使修改或添加新的对象时需要改动简单工厂类的代码 ...
- Addthis使用
一.使用 https://www.addthis.com/.国外的SNS分享站点较多,适用于英文站点内容的分享.有教程. 我的测试代码如下: <html> <meta charset ...
- 洛谷P1538迎春舞会之数字舞蹈
题目背景 HNSDFZ的同学们为了庆祝春节,准备排练一场舞会. 题目描述 在越来越讲究合作的时代,人们注意的更多的不是个人物的舞姿,而是集体的排列. 为了配合每年的倒计时,同学们决定排出——“数字舞蹈 ...