ETL实践--kettle只做源数据的抽取,其他数据转换转到hive上. 1.用hive代替kettle的数据关联的原因 (1).公司之前的数据ELT大量使用了kettle.用kettle导原始数据速度还是蛮快的,但是如果是大表关联类的操作,效率就很差. 一方面是由于hive是用数据库来做关联,数据库的性能跟不上:另外一个方面也是数据要从数据库抽取到kettle,处理完之后还要写回数据库,走了2此网络. (2).公司目前非实时的大数据查询主要是再kylin上,kylin的数据源就是hive,所以