转载自: http://www.51testing.com/html/87/n-3722487.html

概述
  商业信息和数据对于任何一个企业而言都是至关重要的。现在很多公司都投入了大量的人力、资金和时间对这些信息、数据进行分析和整理。
  数据的分析和整理已经获得了巨大的潜在市场,因此为了使得这个过程更为简单,越来越多的软件供应商引入了ETL测试工具。
  目前,有需要开源的ETL工具,供应商允许用户直接从他们的官方网站免费下载,但有可能升级到新版或企业版需要订阅付费。
  所以我们需要根据企业的不同业务结构和模型,在选择ETL工具之前,对其进行分析。在这些开源的ETL工具的帮助下,我们将有机会尝试在不付需要投入巨额资金的情况下对我们的数据进行分析和整理。
  而当前几乎所有的巨头软件供应商都推出了自己的BI或ETL工具。
  一些常用的ETL工具
  · Talend Open Stduio
  · Clover ETL
  · Elixir
  · Pentaho
  · Informatica
  · IBM - Cognos Data Manager
  · Oracle - Data Integrator
  · SAS - Data Integration Studio
  · AB Inito, SAP - BUsiness Objects Data Integrator
  一旦选择了ETL工具,下一阶段就是对该工具进行测试调研,以进一步了解该工具的特性。
  这类工具有助于处理海量的数据和历史数据,同时必须能执行ETL测试,以确保数据的准确性,因此ETL测试是非常的重要的。
  ETL有效的两种测试类型
  · 应用测试
  · 数据测试
  ETL测试过程
  虽然现在有很多的ETL工具用于数据处理,但对于实际业务而言,ETL测试是同样的重要。
  一个良好的ETL测试策略定义可以使得测试过程变得更容易,因此在选择ETL工具前应该遵循这个基本的测试过程。
  ETL测试过程:
  · 分析需求:理解业务结构极其特殊要求
  · 验证和测试评估:对进行过程所需的时间和专业知识进行评估
  · 测试计划和设计测试环境:基于输入进行估算,计划并制定ETL环境
  · 测试数据的准备和执行:根据实际要求准备和执行测试数据
  · 报告:出具实际的报告
  其他信息请参见《ETL测试或数据仓库测试入门》
  常见面试题
  未来随着大数据和人工智能的进一步发展,ETL测试在国内的需要必然会从0到有的突破,下面我们就未来国内求职ETL测试岗位可能碰到的面试题进行说明。
  问:什么是ETL?
  答:ETL是Extracting-Transfroming-Loading的缩写,指从任何外部系统提取、转换、载入数据到目标地。这是数据集成过程的三大基本步骤。 Extracting:从源数据中提取目标数据集 Transfroming:将目标数据集进行业务逻辑转换 Loading:以合适的格式将经过业务逻辑转换的数据集载入到目标地
  问:为什么ETL测试是必须的?
  答:
  · 为了对从源到目的转换过程中的数据进行检查
  · 跟踪整个ETL过程的效率和速度
  · 熟悉ETL过程,才能更好的服务于我们的企业实践
  问:ETL测试工程师的主要职责是什么?
  答:
  · 深入理解ETL工具和过程
  · 为ETL测试各阶段设计测试场景
  · 针对各阶段的测试场景实施不同类型的测试
  · 对数据质量进行检查
  问:在ETL过程中,维度指什么?
  答:维度指汇总数据时进行的排序的组或类别
  问:在ETL过程中,什么是Staging Area?
  答:Staging Area至在ETL过程中临时存储的地方,在这里,我们通常会进行数据清理和重复检查等处理
  问:请解释下ETL Mapping Sheets(ETL映射表)
  答:ETL映射表包含了从源中提取的行和列的所有的信息。该表能帮助我们更好的完成整个ETL过程和ETL测试。
  问:请列举几个ETL测试常见的用例并解释说明
  答:
  · ETL映射表验证:验证映射表中的各项信息是否正确
  · 数据检查:验证数据的准确性、数值、null检查等等
  · 正确性问题: 验证数据的拼写是否有错、数据是否有错和是否存在空数据等问题
  问:请列举你所知道的ETL bug类型
  答:计算错误、用户界面bug、源数据错误、边界错误等

大数据测试之ETL测试工具和面试常见的问题及答案的更多相关文章

  1. 大数据测试之hadoop集群配置和测试

    大数据测试之hadoop集群配置和测试   一.准备(所有节点都需要做):系统:Ubuntu12.04java版本:JDK1.7SSH(ubuntu自带)三台在同一ip段的机器,设置为静态IP机器分配 ...

  2. 大数据测试之初识Hadoop

    大数据测试之初识Hadoop POPTEST老李认为测试开发工程师是面向测试的开发,也就是说,写代码就是为完成测试任务服务的,写自动化测试(性能自动化,功能自动化,安全自动化,接口自动化等等)的cas ...

  3. JAVA 大数据内存耗用测试

    JAVA 大数据内存耗用测试import java.lang.management.ManagementFactory;import java.lang.management.MemoryMXBean ...

  4. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  5. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  6. Java,面试题,简历,Linux,大数据,常用开发工具类,API文档,电子书,各种思维导图资源,百度网盘资源,BBS论坛系统 ERP管理系统 OA办公自动化管理系统 车辆管理系统 各种后台管理系统

    Java,面试题,简历,Linux,大数据,常用开发工具类,API文档,电子书,各种思维导图资源,百度网盘资源BBS论坛系统 ERP管理系统 OA办公自动化管理系统 车辆管理系统 家庭理财系统 各种后 ...

  7. 大数据之ETL工具Kettle的--1功能介绍

    Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用. ...

  8. Data Lake Analytics,大数据的ETL神器!

    0. Data Lake Analytics(简称DLA)介绍 数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake. ...

  9. 大数据测试之Hadoop的基本概念

    poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标,也是国内最早探索大数据测试培训的机构,开发了独有的课程体系.如果对课程感兴趣,请大 ...

随机推荐

  1. My复利计算程序测试报告

    My复利计算程序测试报告 4.0 单元测试----------------------------- 要求: 对我们和复利计算程序,写单元测试. 有哪些场景? 期待的返回值 写测试程序. 运行测试. ...

  2. 第二次结对作业-WordCount进阶需求

    原博客 队友博客 github项目地址 目录 具体分工 需求分析 PSP表格 解题思路描述与设计实现说明 爬虫使用 代码组织与内部实现设计(类图) 算法的关键与关键实现部分流程图 附加题设计与展示 设 ...

  3. psp本周

    四人项目: 日期 类别 内容 开始时间 结束时间 中断时间 净时间 10.4 站立会议 站立会议报告 21:12 21:37 0 25 结对项目: 日期 类别 内容 开始时间 结束时间 中断时间 净时 ...

  4. [转帖] 磁盘IOPS 简介 -- 虽然自己知道有这么一回事 但是自己还是没有系统的总结.

    来源: https://www.cnblogs.com/zengkefu/p/5634299.html 机械硬盘的连续读写性很好, 但随机读写性能很差.这是因为磁头移动至正确的磁道上需要时间,随机读写 ...

  5. C#:system.collections.generic(泛型)

    1. array是一个固定长度的,如果要动态的存储的话就不行了,虽然 System.Collections.ArrayList(),是一个动态的存储的容器,但是没有对存储中的数据进行一个约束,所以非泛 ...

  6. BZOJ 2844: albus就是要第一个出场

    2844: albus就是要第一个出场 Time Limit: 6 Sec  Memory Limit: 128 MBSubmit: 1134  Solved: 481[Submit][Status] ...

  7. 【Cf Edu #47 F】Dominant Indices(长链剖分)

    要求每个点子树中节点最多的层数,一个通常的思路是树上启发式合并,对于每一个点,保留它的重儿子的贡献,暴力扫轻儿子将他们的贡献合并到重儿子里来. 参考重链剖分,由于一个点向上最多只有$log$条轻边,故 ...

  8. uoj318 [NOI2017]蔬菜 【贪心 + 堆 + 并查集】

    题目链接 uoj 题解 以前看别人博客,在考场上用费用流做,一直以为这题是毒瘤网络流题 没想到竟然是贪心模拟题... 如果只有一个蔬菜呢?这就是一个经典的普及难度的贪心,正着推面临优先选择的困难,而逆 ...

  9. P2870 [USACO07DEC]最佳牛线,黄金Best Cow Line, Gold 解题报告

    P2870 [USACO07DEC]最佳牛线,黄金Best Cow Line, Gold 题意 给一个字符串,每次可以从两边中的一边取一个字符,要求取出的字符串字典序最小 可以Hash+二分 也可以S ...

  10. vmware中centos7设置静态IP

    1.vmware—>Edit—>Virtual Network Editor,选中vmnet8-Nat设置,查看网关IP 2.在centos中设置: vi /etc/sysconfig/n ...