最近导师让给师弟师妹做个关于kettle的培训,瞬间囧了,kettle我也只是简单学过,连皮毛都算不上,而且,上次使用kettle已然是去年的事了…… 没办法,只好重新学习下,好在之前写了几个文档,也留下了几行代码,想想还是放到博客上,以后自己查看也比较方便. 数据清洗: 数据清洗是指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等. 从这个技术的名称简单理解,就是把脏的数据洗掉(丢弃),或者洗干净(修正). 如同大象放进冰箱,一般来说数据清洗也可以分为三步: ETL:…