这两天一直在思考一个问题,为什么要用专业的etl工具进行数据清洗,原因如下: ETL负责将分布的.异构数据源中的数据如关系数据.平面数据文件等抽取到临时中间层后进行清洗.转换.集成,最后加载到数据仓库或数据集市中,成为联机分析处理.数据挖掘的基础. 如果数据转换的频率或者要求不高可以手动实现ETL的功能:反之,如果对数据转换的要求比较高的话,就需要专门的ETL工具. 其优点如下: 第一:简化了用户的操作.专用ETL通常通过图形化的配置方式,简单,灵活,使得用户无需过分关心数据库的各种内部细节,而