什么是ETL--ETL定义、过程和工具选型思路
ETL代表“提取、转换和加载”。ETL 过程在数据集成策略中起着关键作用。ETL允许企业从多个来源收集数据并将其整合到一个集中的位置。ETL还使不同类型的数据可以协同工作。
概述
典型的ETL过程会收集和优化不同类型的数据,然后将数据传送到数据仓库。
ETL 还使在各种来源、目的地和分析工具之间迁移数据成为可能。因此,ETL流程在生成商业智能和执行更广泛的数据管理策略方面发挥着关键作用。
ETL 的工作原理
ETL 过程由三个步骤组成,并使数据能够从源头集成到目的地,这三个步骤分别是数据提取、数据转换和数据加载。
第 1 步:提取
很少有企业依赖单一的数据类型或系统。大多数企业拥有来自各种来源的数据,并使用多种数据分析工具来生成商业智能。要制定这样的复杂数据策略,数据必须能够在系统和应用程序之间自由传输。
在将数据移动到新目标之前,必须首先从其源中提取数据。在ETL过程的第一步中,结构化和非结构化数据被导入并整合到一个存储库中。可以从广泛的来源中提取原始数据,包括:
· 现有数据库和遗留系统
· 云、混合和本地环境
· 销售和营销应用
· 移动设备和应用程序
· 客户关系管理系统
· 数据存储平台
· 数据仓库
· 分析工具
虽然可以手动完成,但手工编码的数据提取可能需要大量时间并且容易出错。ETL工具可自动执行提取过程并创建更高效、更可靠的工作流程。
第 2 步:转型
在 ETL 过程的这个阶段,可以应用规则和法规来确保数据质量和可访问性。您还可以应用规则来帮助您的公司满足报告要求。数据转换的过程由几个子过程组成:
· 清理——解决数据中的不一致和缺失值。
· 标准化——格式化规则应用于数据集。
· 重复数据删除— 排除或丢弃冗余数据。
· 验证— 删除不可用的数据并标记异常。
· 排序— 根据类型组织数据。
· 其他任务——可以应用任何附加/可选规则来提高数据质量。
转换通常被认为是 ETL 过程中最重要的部分。数据转换可提高数据完整性,并有助于确保数据到达新目的地时完全兼容并可供使用。
第 3 步:加载
ETL 过程的最后一步是将新转换的数据加载到新目的地。数据可以一次加载(满载)或按预定时间间隔(增量加载)加载。
满载— 在 ETL 满载场景中,来自转换装配线的所有内容都会进入数据仓库中新的、唯一的记录。虽然有时这对研究目的很有用,但完全加载产生的数据集会呈指数增长,并且很快就会变得难以维护。
增量加载——一种不太全面但更易于管理的方法是增量加载。增量加载将传入数据与现有数据进行比较,并且只有在找到新的唯一信息时才会生成额外的记录。这种架构允许使用更小的数据仓库来维护和管理商业智能。
ETL和商业智能
数据战略比以往任何时候都更加复杂,公司可以从更多来源访问更多数据。ETL 可以将大量数据转化为可操作的商业智能。
所有这些数据都必须被提取、转换并加载到新的目的地进行分析。在这种情况下,ETL 通过以下方式帮助创建商业智能:
提供统一数据
管理多个数据集需要时间和协调,并可能导致效率低下和延迟。ETL 将数据库和各种形式的数据组合成一个单一的、统一的视图。这使得分析、可视化和理解大型数据集变得更加容易。
提供历史背景
ETL 允许企业将遗留数据与从新平台和应用程序收集的数据相结合。这会生成数据的长期视图,以便可以查看较旧的数据集以及更新的信息。
提高效率和生产力
ETL 软件使手工编码的数据迁移过程自动化。因此,开发人员及其团队可以将更多时间花在创新上,而减少管理编写代码以移动和格式化数据的时间。
构建您的ETL策略
ETL 可以通过两种方式完成。在某些情况下,企业可能会要求开发人员构建自己的 ETL。然而,这个过程可能是时间密集型,容易出现延迟。
如今,大多数公司都依赖 ETL 工具作为其数据集成过程的一部分。ETL 工具以其速度、可靠性和成本效益以及与更广泛的数据管理策略的兼容性而闻名。ETL 工具还包含广泛的数据质量和数据治理功能。
ETL工具选型
在评估 ETL 工具时,您需要考虑所需连接器的数量和种类,以及它的便携性和易用性。
什么是ETL--ETL定义、过程和工具选型思路的更多相关文章
- 主流ETL(Extract-Transform-Load)工具选型,Kettle Spoon、Datastage、Powercenter介绍
参考:三大主流ETL工具选型 ETL工具 Kettle Spoon 开源ETL工具,所以免费,用java开发的. Ascential公司的Datastage(在2005年被IBM收购现在是 IBM 的 ...
- 研发过程及工具支撑 DevOps 工具链集成
https://mp.weixin.qq.com/s/NYm63nkCymIV3DbL4O01dg 腾讯重新定义敏捷 |Q推荐 小智 InfoQ 2020-09-03 敏捷开发奠基人 Robert C ...
- 第1阶段——uboot分析之查找命令run_command函数和命令定义过程(6)
本节主要学习,run_command函数命令查找过程,命令生成过程 1.run_command函数命令查找过程分析:在u-boot界面中(main_loop();位于u-boot-1.1.6/comm ...
- APP移动端自动化测试工具选型“兵器谱”一览(主流开源工具)
(下面大多数工具都是开源工具,在github,码云等开源平台都能找到) "测试那点事儿”在看到360旗下的测试团队整理的关于目前APP移动端自动化相关的工具,觉得总结的很到位,对目前大多数中 ...
- JMeter特点&性能测试工具选型的原则&模拟压力的原理
1.JMeter自身的特点 1)开源.轻量级.更适合自动化和持续集成(100M左右,LoadRunner 4G左右) 2)学习难度大 3)资料少.全英文 2. 性能测试工具选型的原则 1)成本 a.工 ...
- 三大主流ETL工具选型
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 基于两种架构的ETL实现及ETL工具选型策略
企业信息化建设过程中,业务系统各自为政.相互独立造成的"数据孤岛"现象尤为普遍,业务不集成.流程不互通.数据不共享--.这给企业进行数据的分析利用.报表开发等带来了巨大困难.在此情 ...
- 三大主流ETL工具选型 分类: H2_ORACLE 2013-08-23 11:17 426人阅读 评论(0) 收藏
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维 ...
- 10万级etl批量作业自动化调度工具Taskctl之轻量级Web应用版
什么是批量作业: 批量处理是银行业整个信息后台最为重要的技术形态,也是银行核心信息资产数据的分享.传输.演化的重要技术手段.有调查指出,全球70%的数据是经过批量处理得以再次使用,可见批量处理在整个信 ...
随机推荐
- [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架
[源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 目录 [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 0x00 摘要 0x01 架构图 ...
- JavaScript中基本数据类型和引用数据类型的区别(栈——堆)
JavaScript中基本数据类型和引用数据类型的区别 1.基本数据类型和引用数据类型 ECMAScript包括两个不同类型的值:基本数据类型和引用数据类型. 基本数据类型指的是简单的数据段,引用数据 ...
- csp-s模拟测试41「夜莺与玫瑰·玫瑰花精·影子」
夜莺与玫瑰 题解 联赛$T1$莫比乌斯$\%\%\%$ $dead$ $line$是直线 首先横竖就是$n+m$这比较显然 枚举方向向量 首先我们枚举方向向量时只枚举右下方向,显然贡献$*2$就是所 ...
- c#根据名称反射对应的枚举类型
今天遇到了要配置串口的停止位,这个时候直接反射枚举比较方便. 第一反射所有的枚举值 FieldInfo[] fieldInfoes= typeof(StopBits).GetFields(Bindin ...
- CMD批处理(5)——自动以管理员身份运行批处理脚本
在日常运维工作中,为方便对windows用户进行系统安装或配置等,使用Windows自带的批处理(bat文件)是一种最为简单快速的方法. 批处理脚本不会默认已管理员身份运行,一般情况下,我会将脚本命名 ...
- 机器人路径规划其二 A-Star Algorithm【附动态图源码】
首先要说明的是,机器人路径规划与轨迹规划属于两个不同的概念,一般而言,轨迹规划针对的对象为机器人末端坐标系或者某个关节的位置速度加速度在时域的规划,常用的方法为多项式样条插值,梯形轨迹等等,而路径规划 ...
- 每日三道面试题,通往自由的道路4——JVM篇
茫茫人海千千万万,感谢这一秒你看到这里.希望我的面试题系列能对你的有所帮助!共勉! 愿你在未来的日子,保持热爱,奔赴山海! 每日三道面试题,成就更好自我 昨天既然你有讲到字符串常量池是吧,那这样吧 1 ...
- Python-统计目录(文件夹)中Excel文件个数和数据量
背景:前一阵子在帮客户做Excel文件中的数据处理,但是每周提交周报,领导都需要统计从客户接收的文件数量以及记录数.所以我就简单写了统计的脚本,方便统计目录(文件夹)中的Excel文件个数和数据量. ...
- 8、mysql乱码问题及字符集实战
8.1.mysql插入中文数据乱码案例: mysql建库的字符集为latin1,客户端的字符集为utf8; use lc; 1.查看库的编码: mysql> show create databa ...
- 利用C语言判别输入数的位数并正逆序输出
利用C语言判别用户输入数的位数并正逆序输出 #include <stdio.h> void main() { int i, scanfNum, printfNum, temp ...