现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL.Impala.Presto等等,但就目前来看,在基于Hadoop的大数据分析平台.数据仓库中,Hive仍然是不可替代的角色.尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便.功能太强大了,做离线批量计算.ad-hoc查询甚至是实现数据挖掘算法,而且,和HBase.Spark都能整合使用. 如果你是做大数据分析平台和数据仓库相关的,就目前来说,我建议,Hive是必须的. 很早之前整理过Hive的函数