[大数据测试]ETL测试或数据仓库测试入门
转载自:
http://blog.csdn.net/zhusongziye/article/details/78633934
概述
在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库。
什么是BI?
BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据(原始数据或商业数据或业务数据等)进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。
原始数据记录了企业日常事务,例如与客户交互的信息、财务信息,员工相关记录等等。
这些数据可以用于汇报、分析、挖掘、数据质量、交互、预测分析等等
什么是数据仓库
数据仓库是为查询和分析而不是事务处理而设计的数据库。
数据仓库是通过整合不同的异构数据源而构建起来的。
数据仓库的存在使得企业或组织能够将整合、分析数据工作与事务处理工作分离。
数据能够被转换、整合为更高质量的信息来满足企业级用户不同层次的需求。
什么是ETL
ETL是Extract-Transform-Load的缩写(提取-转换-载入),是一个完整的从源系统提取数据,进行转换处理,载入至数据仓库的过程。
我们从联机事务数据库中提取数据,进行转换处理,匹配数据仓库模式,然后载入至数据仓库数据库中。
在通常情况下,大多数的数据仓库要整合非联机事务数据库系统的数据,例如来源文本文件、日志、电子表格等等。
下面我们一起看看ETL是怎么工作的。
例如一个公司,有关于其不同部门的数据记录,销售、市场、物流等等。每个部门所处理的客户信息是独立的,而且存储的数据也是相对不同的,假如销售团队有存储客户的姓名,而物流团队存储的是用户 的ID。
现在我们想要去检查客户的历史数据,并且想要了解他/她在不同的营销活动中购买的不同产品是什么。这将是一项非常枯燥的工作。
该解决方案就是使用数据仓库应用统一的结构来存储经过ETL处理过的不同源的数据。
ETL能够转换不同结构/类型的数据集为统一的结构,以便后续使用BI工具生成有意义的分析和表报。
下面我们看一下ETL过程完整的流程图:
ETLProcess.png
Extract
提取有效的数据Transform
将提取的数据转换为数据仓库模式/格式
构建keys:一个key是一个或多个数据属性的惟一标识实例,key的类型可以是主键(primary key)、外键(foreign key)、替代键(alternate key)、复合键(composite key)以及代理键(surrogate key)。这些key只允许数据仓库进行维护管理,且不允许其他任何实体进行分配。
数据清理:在提取好数据后,则进入下一个节点:数据清理。对提取的数据中的错误进行标识和修复。解决不同数据集之间的不兼容的冲突问题,使数据一致性,以便数据集能用于目标数据仓库。通常,通过转换系统的处理,我们能创建一些元数据(meta data)来解决源数据的问题,并改进数据的质量。
Load
将转换后的数据载入数据仓库
构建聚集:创建聚集对数据进行汇总并存储数据至表中,以改进终端用户的查询体验。
什么是ETL测试
ETL测试是为了确保从源到目的地数据经过业务转换完成后是准确的。
同时它还涉及数据的验证,即从源到目的地数据各个不同阶段验证数据。
ETL是Extract-Transform-Load的缩写。
ETL测试过程
与其他测试过程类似,ETL也需要经历不同的测试阶段。其流程如下:
ETLTestingProcess.png
ETL测试过程主要分为以下五大阶段:
分析需求、业务和源数据
获取数据
实现业务逻辑和维度建模
构建和填充数据
生成报告
ETL测试类型
Production Validation Testing
该类型的ETL测试是在数据迁移至生产系统时进行的。为了保证生产业务的正常运营,生产系统中的数据必须以正确的顺序进行排序。在该ETL测试类型中要注意从数据层面进行自动化测试和管理能力的植入。Source to Target Testing(Validation Testing)
该类型的测试主要元组转换的数据是否满足预期的转换目标Application Upgrades(升级测试)
该类型的ETL测试是可以自动生成的,能节省大量的测试开发时间。主要检查旧应用或存储库中提取的数据是否与新的应用或新的存储库中的数据完全相同。Metadata testing(元数据测试)
元数据测试包括数据类型检查、数据长度和索引/约束检查。Data Completeness Testing(数据完整性测试)
当把所有期望的数据从源加载到目标地时,就算完成了数据完整性测试。在数据完整性测试过程中,我们还可以进行一些简单的转换或无转换的源与目标之间的计数、聚合和实际数据比较和验证的测试。Data Accuracy Testing(数据准确性测试)
该类型测试验证数据正确的完成加载和按预期目标进行转换。Data Transformation Testing(数据转换测试)
测试数据转换是一个复杂的过程,并不是简单的写一个源SQL查询并与目标进行比较来实现的。可能需要为每个行运行多个SQL查询,来验证转换规则Data Quality Testing(数据质量测试)
数据质量测试包含语法和基准测试。为了避免在业务过程中由于日期或唯一编号(例如订单号)引起的错误,进行数据质量测试。
语法测试:根据无效字符、字符模式、不正确大小写、顺序等出具脏数据测试结果
基准测试:基于数据模型检查数据,例如客户ID数据质量测试,包含:数字检查、日期检查、精度检查、数据检查、零校验等等
Incremental ETL Testing(增量ETL测试)
该类型测试主要验证旧数据和新数据的完整性,并添加新数据。增量测试验在增量ETL过程中,插入和更新是否满足预期的要求。GUI/Navigation Testing
该类型测试主要检查生成的大数据报告的UI\导航方面是否正常
怎么创建ETL测试用例
ETL测试是一个可以应用于信息管理领域中不同工具和数据库的概念。
ETL测试的目的是确保在业务转换完成后从源加载到目的地的数据是正确无误的。
ETL测试同样还涉及在源和目的地之间转换时的各个阶段的数据的验证。
在从事ETL测试时,有两份文档是ELT测试人员实时使用的:
ETL映射表:一个ETL映射表包含源和目的地表的所有的信息,包括每个列及其引用表等约束关系。ETL测试人员需要更为优美的SQL查询语句,因为在ETL测试各阶段可能需要编写具有多个连接的大查询来验证数据。ETL映射表在为数据验证编写查询时提供大量的有用的信息。
源、目标数据库模式:该模式应该便于验证映射表中的所有细节。
ETL测试场景和测试用例
序号 | 测试场景 | 测试用例 |
---|---|---|
1 | Mapping Doc Validation(映射文件验证) | 验证映射文件是否提供了响应的ETL信息,且每个映射文档的更新日志有记录 |
2 | Validatioin(验证) | 1. 根据对应的映射文件验证源与目的地数据仓库的表结构 2. 验证源和目标数据的类型一致 3. 验证源和目标数据的长度一致 4. 验证数据字段类型和格式是指定的类型 5. 验证源的数据类型长度不应小于目标数据类型长度 6. 针对映射表对数据表的列的名称进行验证 |
3 | 约束验证 | 验证目标表中的约束关系满足我们的期望设计 |
4 | 数据一致性问题 | 1. 要防止语义定义相同,但特定属性的数据类型和长度不一致的问题 2. 防止完整性约束滥用 |
5 | 完整性问题 | 1. 要确保所有期望的数据都已经完整的加载到目标表中 2. 要比较源和目标数据的个数(即确保计数上的完整)3. 检查出现的任何不合格的记录 4. 检查目标表列中的数据没出现被截断的情况 5. 对边界值进行分析检查 6. 要检查比较目标数据仓库和源数据的关键字段的唯一性 |
6 | 正确性问题 | 1. 数据要没有拼写错误或不准确的记录 2. 无null、非惟一或超出范围的数据记录存在 |
7 | 转换 | 验证转换逻辑的正确性 |
8 | 数据质量 | 1. 数值型验证,验证是否为数值类型 2. 日期型验证,验证是否为日期格式,并且在所有日期类型数据的格式应该统一 3. 精度验证,小数点的精度要满足期望的精度 4. 数据检查:检查数据的正确性,完整性 5. null检查 |
9 | 拷贝验证 | 1. 验证目标表中业务要求所有惟一性指标均正确的实现(例如主键、惟一标识的键、或其他任一惟一表示的列) 2. 验证从源数据多列合并而成的数据是正确的 3. 验证仅仅根据客户要求对源数据进行了多列合并至目标表中 |
10 | 日期验证 | 日期是ETL开发过程中常用的数据,主要用于: 1. 了解数据行创建的日期 2. 用于识别活动记录 3. 根据业务需求透视表确定活动记录 4. 便于基于时间插入、更新记录 |
11 | 数据完整性验证 | 在验证源和目标表中的数据集的完整性时,我们需要用到交集运算,以确定目标数据的完整性 |
12 | 数据清理 | 对于不需要的列在载入至数据仓库前应该进行删除 |
ETL的bug类型
序号 | bug类型 | 描述说明 |
---|---|---|
1 | 用户接口bug | 1. 主要涉及应用的GUI 2.字体、样式、颜色、对齐、拼写错误、导航等等 |
2 | 边界值bug | 数据的边界值范围 |
3 | 等价类划分bug | 有效和无效类 |
4 | 输出/输出bug | 1.未接受的有效值 2. 无效的值被接受 |
5 | 计算类bug | 1. 数学计算错误 2. 最终输出错误 |
6 | 载入条件bug | 1. 不运行多用户操作 2. 不运行用户载入期望的数据 |
7 | 崩溃bug | 1. 系统宕机或挂起 2. 系统无法运行在用户的平台上 |
8 | 版本控制bug | 1. 无匹配标识 2. 没有可用的版本信息 3. 一般版本控制bug发生在回归测试时 |
9 | 硬件问题 | 一般发生在应用程序不兼容设备 |
10 | 文档错误bug | 错误的帮助文档信息 |
ETL测试与数据库测试的不同
序号 | ETL测试 | 数据库测试 |
---|---|---|
1 | 验证数据是否按照预期进行了移动 | 主要验证数据是否遵循了设计预定的数据模式规则或标准 |
2 | 验证数据经过业务转换后是否满足预定的转换逻辑以及验证源和目标数据计算是否一致 | 主要表的主、外键等越苏是否正常 |
3 | 验证ETL过程数据表的主外键关系是否保存 | 验证没有冗余表,数据库最佳化 |
4 | 验证已载入的数据拷贝是否满足预期 | 验证需要的是否缺少数据 |
ETL测试工程师的主要责任
对于一个ETL测试工程师而言,其关键的责任有三大类:
源数据分析(数据库、文本等类型数据分析)
业务转换逻辑实现
将经过转换的数据载入至目标表
其他有:
掌握ETL测试软件
ETL数据仓库测试组件
在后端执行数据驱动测试
创建、设计、执行测试用例、计划等
标识问题、提供问题解决方案
梳理业务需求和设计测试策略
写SQL或数据库操作代码完成实现各种测试场景
等等其他工作内容。。。
[大数据测试]ETL测试或数据仓库测试入门的更多相关文章
- ETL测试或数据仓库测试入门
概述 在我们学习ETL测试之前,先了解下business intelligence(即BI)和数据仓库. 什么是BI? BI(Business Intelligence)即商务智能,它是一套完整的解决 ...
- 大数据测试类型&大数据测试步骤
一.什么是大数据? 大数据是一个大的数据集合,通过传统的计算技术无法进行处理.这些数据集的测试需要使用各种工具.技术和框架进行处理.大数据涉及数据创建.存储.检索.分析,而且它在数量.多样性.速度方法 ...
- Android渗透测试Android渗透测试入门教程大学霸
Android渗透测试Android渗透测试入门教程大学霸 第1章 Android渗透测试 Android是一种基于Linux的自由及开放源代码的操作系统,主要用于移动设备,如智能手机.平板等.目前 ...
- Google C++测试框架系列:入门
Google C++测试框架系列:入门 原始链接:V1_6_Primer 注 GTest或者Google Test: Google的C++测试框架. Test Fixtures: 这个词实在找不到对应 ...
- [原创] 浅谈ETL系统架构如何测试?
[原创] 浅谈ETL系统架构如何测试? 来新公司已入职3个月时间,由于公司所处于互联网基金行业,基金天然固有特点,基金业务复杂,基金数据信息众多,基金经理众多等,所以大家可想一下,基民要想赚钱真不容易 ...
- 云计算&存储测试:FIO工具入门与实战
一.关于FIO 1.1 简介 FIO是一个开源的I/O压力测试工具,主要是用来测试磁盘的IO性能,也可测试cpu,nic的IO性能.它可以支持13种不同的I/O引擎,包括:sync,mmap, lib ...
- 05. Web大前端时代之:HTML5+CSS3入门系列~H5 多媒体系
Web大前端时代之:HTML5+CSS3入门系列:http://www.cnblogs.com/dunitian/p/5121725.html 1.引入 概述 音频文件或视频文件都可以看做是一个容器文 ...
- 大数据初级笔记二:Hadoop入门之Hadoop集群搭建
Hadoop集群搭建 把环境全部准备好,包括编程环境. JDK安装 版本要求: 强烈建议使用64位的JDK版本,这样的优势在于JVM的能够访问到的最大内存就不受限制,基于后期可能会学习到Spark技术 ...
- Android Testing学习01 介绍 测试测什么 测试的类型
Android Testing学习01 介绍 测试测什么 测试的类型 Android 测试 测什么 1.Activity的生命周期事件 应该测试Activity的生命周期事件处理. 如果你的Activ ...
随机推荐
- Scrum 6.0
sprint演示 1.坚持所有的sprint都结束于演示. 团队的成果得到认可,会感觉很好. 其他人可以了解你的团队在做些什么,并得到重要反馈. 演示是一种社会活动,不同的团队可以在这里相互交流,讨论 ...
- Pytest - 进阶功能fixture
1. 概述 Pytest的fixture功能灵活好用,支持参数设置,便于进行多用例测试,简单便捷,颇有pythonic.如果要深入学习pytest,必学fixture. fixture函数的作用: 完 ...
- P2219 [HAOI2007]修筑绿化带
我是题面 这道题跟理想的正方形很像,不大明白蛤OI是怎么想的,一年出两道这么相近的题 这道题有两个矩形,所以就有了两种做法(说是两种做法,其实只是维护的矩形不同) 一种是维护大矩形,一种是维护小矩形, ...
- c++11 List 容器
c++11 List 容器 List简介 list是一个双向链表容器 可高效地进行插入删除元素. list不可以随机存取元素,所以不支持at(pos)函数与[]操作符. ...
- MT【134】待定系数
已知\(a,b>0\)且\(ab(a+b)=4\),求\(2a+b\)的最小值______. 解答:\(\sqrt{3}(2a+b)\ge(\sqrt{3}+1)a+b+(\sqrt{3}-1) ...
- [洛谷P4723]【模板】线性递推
题目大意:求一个满足$k$阶齐次线性递推数列$a_i$的第$n$项. 即:$a_n=\sum\limits_{i=1}^{k}f_i \times a_{n-i}$ 题解:线性齐次递推,先见洛谷题解, ...
- Spring点滴七:Spring中依赖注入(Dependency Injection:DI)
Spring机制中主要有两种依赖注入:Constructor-based Dependency Injection(基于构造方法依赖注入) 和 Setter-based Dependency Inje ...
- 【BZOJ4036】按位或(Min-Max容斥,FWT)
[BZOJ4036]按位或(Min-Max容斥,FWT) 题面 BZOJ 洛谷 题解 很明显直接套用\(min-max\)容斥. 设\(E(max\{S\})\)表示\(S\)中最晚出现元素出现时间的 ...
- BZOJ 1208 宠物收养所 | 平衡树模板题
BZOJ 1208 宠物收养所 我犯过的错误:删除一个节点后没有update新的根节点,导致size错了! #include <cstdio> #include <cmath> ...
- 【ARC074e】RGB sequence
Description 一排\(n\)个格子,每个格子可以涂三种颜色的一种.现在给出\(m\)个形如"\([l,r]\)中必须恰好有\(x\)种颜色"的限制(\(1 \le l ...