数据倾斜是进行大数据计算时常见的问题.主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致. 在hive中遇到数据倾斜的解决办法: 一.倾斜原因:map端缓慢,输入数据文件多,大小不均匀 当出现小文件过多,需要合并小文件.可以通过set hive.merge.mapfiles=true来解决. set hive.map.aggr=true; //map端部分聚合,相当于Combiner,可以减小压力(默认开启)…