Hive在分布式运行的时候最害怕的是数据倾斜,这是由于分布式系统的特性决定的,因为分布式系统之所以很快是由于作业平均分配给了不同的节点,不同节点同心协力,从而达到更快处理完作业的目的. Hive中数据倾斜的原因: 数据在分布式节点上分部不均衡 join时某些key可能特别大(常见null值) group by 时某个值可能特别多 count(distinct key...)时有可能会出现数据倾斜,因为其内部处理会进行group by 操作 join join时key最好是分散的,如果一个key的