Hive中的数据倾斜 hive 1. 什么是数据倾斜 mapreduce中,相同key的value都给一个reduce,如果个别key的数据过多,而其他key的较少,就会出现数据倾斜.通俗的说,就是我们在处理的时候数据分布的不均,导致了数据大量集中在某一点.造成了数据的热点. 其实在mapreduce分析的时候最怕的就是数据倾斜,通常会出现下面的情况: map阶段处理比较快,reduce阶段处理比较慢.其实reduce阶段不应该很慢,如果很慢,很大可能就是出现了数据倾斜. 1) 有的reduce