数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点.大多数情况下,分为一下三种情况: 1.map端执行比较快,reduce执行很慢,因为partition造成的数据倾斜. 2.某些reduce很快,某些reduce很慢,也是因为partition造成的数据倾斜. 3.某些map执行很快,某些map执行很慢,这是因为数据本身的分布的不合理性造成的. 造成上面reduce和map任务运行很缓慢本质上就两种情况: 第一:reduce缓慢是因为partition造成滴: 第二:map端缓…