1.数据倾斜的原理 2.数据倾斜的现象 3.数据倾斜的产生原因与定位 在执行shuffle操作的时候,大家都知道,我们之前讲解过shuffle的原理. 是按照key,来进行values的数据的输出.拉取和聚合的. 同一个key的values,一定是分配到一个reduce task进行处理的. 多个key对应的values,总共是90万. 但是问题是,可能某个key对应了88万数据,key-88万values,分配到一个task上去面去执行. 另外两个task,可能各分配到了1万数据,可能是数百个…