Hive基础 1.引入原因 对存在HDFS上的文件或HBase中的表进行查询时,是要手工写一堆MapReduce代码 对于统计任务,只能由懂MapReduce的程序员才能搞定 事实上,许多底层细节实际上进行的是从一个任务到下一个任务的重复性工作 使用MapReduce的时候遇到复杂的统计逻辑,这种MapReduce任务需要等上一个任务跑完再接下一个任务,而判断一个任务是否跑完,则是通过检测HDFS上对应输出文件是否生成_SUCCESS文件来判断,然后利用shell脚本去把它们串起来,整个流程就很