hive数据倾斜原因以及解决办法

何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。

表现为整体任务基本完成，但仍有少量子任务的reduce还在运行。

数据倾斜的原因:

1.join

一个表较小，但key集中，分发到一个或者几个reduce上的数据远高于平均值；

大表与大表关联，但分桶的判断字段0值或者空值过多，这些空值或者0值都由一个reduce处理

2.group by

分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久

3.count distinct

特殊值过多，处理特殊值耗时

综上所述原因就是：

key值分布不均，数据本身的原因（特殊值过多），sql语句不合理，表建的不合理

解决数据倾斜的方法：

1.参数配置

hive> set hive.map.aggr=true; 设置map端聚合

hive> set hive.groupby.skewindata=true; 当数据倾斜时，进行负责均衡

2.语句优化

小表与大表join时，使用mapjoin 将小表加载到内存中。

scala> hivecon.sql("select /*MAPJOIN(tbsex)*/ b.custname,b.nianling,a.sexname from tbsex a join cust b on a.id=b.sex").show
+---------------+--------+-------+
|       custname|nianling|sexname|
+---------------+--------+-------+
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          nihao|       5| woman|
|      mahuateng|    1001| woman|
|        liuyang|      32| woman|
|          nihao|       5| woman|
|       zhangsan|      20| woman|
|         wangwu|      85| woman|
|tianyt_touch100|      50| woman|
|      mahuateng|    1001| woman|
|        liuyang|      32| woman|
|       zhangsan|      20| woman|
|         wangwu|      85| woman|
|tianyt_touch100|      50| woman|
+---------------+--------+-------+

如果关联的key存在空值，可以过滤掉空值再进行关联也可以为空值赋一个随机值
scala> hivecon.sql("select b.custname,b.nianling,a.sexname from tbsex a join cust b on b.sex is not null and a.id=b.sex").show
+---------------+--------+-------+
|       custname|nianling|sexname|
+---------------+--------+-------+
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          nihao|       5| woman|
|      mahuateng|    1001| woman|
|        liuyang|      32| woman|
|          nihao|       5| woman|
|       zhangsan|      20| woman|
|         wangwu|      85| woman|
|tianyt_touch100|      50| woman|
|      mahuateng|    1001| woman|
|        liuyang|      32| woman|
|       zhangsan|      20| woman|
|         wangwu|      85| woman|
|tianyt_touch100|      50| woman|
+---------------+--------+-------+

把空值的 key 变成一个字符串加上随机数，就能把倾斜的数据分到不同的reduce上 ,解决数据倾斜问题。 concat('hehe',rand())

count distinct 引起的数据倾斜，可以先去重后再进行统计

scala> hivecon.sql("select sex,count(distinct custname) from cust group by sex").show
+----+------------------------+
| sex|count(DISTINCT custname)|
+----+------------------------+
|null|                       1|
|   1|                       6|
|   0|                       3|
+----+------------------------+

scala> hivecon.sql("select sex,count(1) from (select sex,custname from cust group by custname, sex) mm group by sex").show
+----+--------+
| sex|count(1)|
+----+--------+
|null|       1|
|   1|       6|
|   0|       3|
+----+--------+

3.map和reduce优化

小文件过多的时候合并小文件

hive> set hive.merge.mapfiles=true;

单个文件过大可以设置map的个数

hive数据倾斜原因以及解决办法的更多相关文章

Hive 数据倾斜原因及解决方法（转）
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...
HBase快照迁移数据失败原因及解决办法
目录目录 1 1. 背景 1 2. 环境 1 3. 执行语句 1 4. 问题描述 1 5. 错误信息 2 6. 问题原因 3 7. 解决办法 4 1. 背景机房裁撤,需将源HBase集群的数据迁移 ...
Spark产生数据倾斜的原因以及解决办法
Spark数据倾斜产生原因首先RDD的逻辑其实时表示一个对象集合.在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据集的子集.当spark调度并运行任务的时候,Spark会为每一个分 ...
实战 | Hive 数据倾斜问题定位排查及解决
Hive 数据倾斜怎么发现,怎么定位,怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例.当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措 ...
.Net内存泄露原因及解决办法
.Net内存泄露原因及解决办法 1. 什么是.Net内存泄露 (1).NET 应用程序中的内存您大概已经知道,.NET 应用程序中要使用多种类型的内存,包括:堆栈.非托管堆和托管堆.这里我们需 ...
HttpClient的CircularRedirectException异常原因及解决办法
HttpClient的CircularRedirectException异常原因及解决办法这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientPr ...
mysql保存中文乱码的原因和解决办法
当你遇到这个mysql保存中文乱码问题的时候,期待找到mysql保存中文乱码的原因和解决办法这样一篇能解决问题的文章是多么激动人心. 也许30%的程序员会选择自己百度,结果发现网友已经贴了很多类 ...
html页面顶部出现一段空白,检查控制台发现body 下出现&#65279字符,原因及解决办法
html页面顶部出现一段空白,检查控制台发现body 下出现&#65279字符,原因及解决办法分析: 原来是页面编码时增加了BOM,此页面后端数据主要是PHP语言,对PHP来讲PHP在设计时 ...
mysql数据库死锁的产生原因及解决办法
这篇文章主要介绍了mysql数据库锁的产生原因及解决办法,需要的朋友可以参考下数据库和操作系统一样,是一个多用户使用的共享资源.当多个用户并发地存取数据时,在数据库中就会产生多个事务同时存取同 ...

随机推荐

火狐对SVG的兼容性
使用d3在SVG中画流程图,需要获取流程图的宽,高,来给流程图居中布局.在Chrome中正常显示,可是在火狐中svg流程图在容器内偏移,查看很不方便.在网上百度了,找不到火狐对d3的兼容性,所以就自 ...
峰Redis学习（9）Redis 集群(概述)
第一节:Redis 集群概述 redis cluster是去中心化,去中间件的,也就是说,集群中的每个节点都是平等的关系,都是对等的,每个节点都保存各自的数据和整个集群的状态.每个节点都和其他所有节点 ...
vue中使用elementUI
引入Element 因为整个项目是依赖ElementUI框架做的,所以采用了全部引入 1,在项目根目录执行命令:npm i element-ui -S进行安装 2,在main.js中引入element ...
locust -基础框架
# coding=utf-8from locust import HttpLocust, TaskSet, taskimport requests # 定义用户行为class UserBehavior ...
spring4.3新注解之：@RequestMapping变种（@GetMapping,@PostMapping,@PutMapping,@DeleteMapping,@PatchMapping）
Spring 4.3 中引进了下面的注解 @RequestMapping 在方法层级的变种,来帮助简化常用 HTTP 方法的映射,并更好地表达被注解的方法的语义.比如,@GetMapping可以读作 ...
Redis 主从+哨兵+监控（centos7.2 + redis 3.2.9 ）
环境准备: 192.168.0.2 redis01 主 192.168.0.3 redis02 从 192.168.0.4 redis03 从 Redis 主从搭建一:下载并安装redis软件 ...
修改Linux终端提示符颜色
修改Linux终端提示符颜色作者:Eric 微信:loveoracle11g [root@linux-node2 ~]# tail -1 .bashrc PS1='[\[\033[1;31m\]\u ...
Keras.applications.models权重：存储路径及加载
网络中断原因导致keras加载vgg16等模型权重失败, 直接解决方法是:删掉下载文件,再重新下载 Windows-weights路径: C:\Users\你的用户名\.keras\models Li ...
c#语言集合分析
集合的赋值: double fenshu = 0; al.Add(fenshu=double.Parse (Console .ReadLine ())); //如果是存数字,将来要比较大小,需要再添加 ...
RabbitMQ install (Ubuntu)
1. key 1) Online way apt-key adv --keyserver "hkps.pool.sks-keyservers.net" --recv-keys &q ...

hive数据倾斜原因以及解决办法

hive数据倾斜原因以及解决办法的更多相关文章

随机推荐

热门专题