hive之于数据民工,就如同锄头之于农民伯伯.hive用的好,才能从地里(数据库)里挖出更多的数据来. 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了. hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto.spark-sql等替代品.今天不谈其它,就来说说关于hive,个人的一点心得. 一. 表连接优化 1. 将大表放后头 Hive假定查询中最后的一个表是大表.它会将其它表缓存起来,然后扫描最后那个表. 因此通常需要将小…