何谓数据倾斜?数据倾斜指的是,并行处理的数据集 中,某一部分(如Spark的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。

表现为整体任务基本完成,但仍有少量子任务的reduce还在运行。

数据倾斜的原因:

1.join

一个表较小,但key集中,分发到一个或者几个reduce上的数据远高于平均值;

大表与大表关联,但分桶的判断字段0值或者空值过多,这些空值或者0值都由一个reduce处理

2.group by

分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久

3.count distinct

特殊值过多,处理特殊值耗时

综上所述原因就是:

key值分布不均,数据本身的原因(特殊值过多),sql语句不合理,表建的不合理

解决数据倾斜的方法:

1.参数配置

hive> set hive.map.aggr=true;  设置map端聚合

hive> set hive.groupby.skewindata=true; 当数据倾斜时,进行负责均衡

2.语句优化

小表与大表join时,使用mapjoin 将小表加载到内存中。

scala> hivecon.sql("select /*MAPJOIN(tbsex)*/  b.custname,b.nianling,a.sexname from tbsex a join  cust b on a.id=b.sex").show
+---------------+--------+-------+                                             
|       custname|nianling|sexname|
+---------------+--------+-------+
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          nihao|       5|  woman|
|      mahuateng|    1001|  woman|
|        liuyang|      32|  woman|
|          nihao|       5|  woman|
|       zhangsan|      20|  woman|
|         wangwu|      85|  woman|
|tianyt_touch100|      50|  woman|
|      mahuateng|    1001|  woman|
|        liuyang|      32|  woman|
|       zhangsan|      20|  woman|
|         wangwu|      85|  woman|
|tianyt_touch100|      50|  woman|
+---------------+--------+-------+

如果关联的key存在空值,可以过滤掉空值再进行关联也可以为空值赋一个随机值
scala> hivecon.sql("select  b.custname,b.nianling,a.sexname from tbsex a join  cust b on b.sex is not null and  a.id=b.sex").show
+---------------+--------+-------+
|       custname|nianling|sexname|
+---------------+--------+-------+
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          hello|     100|    man|
|         wangwu|      47|    man|
|         liuqin|      56|    man|
|          nihao|       5|  woman|
|      mahuateng|    1001|  woman|
|        liuyang|      32|  woman|
|          nihao|       5|  woman|
|       zhangsan|      20|  woman|
|         wangwu|      85|  woman|
|tianyt_touch100|      50|  woman|
|      mahuateng|    1001|  woman|
|        liuyang|      32|  woman|
|       zhangsan|      20|  woman|
|         wangwu|      85|  woman|
|tianyt_touch100|      50|  woman|
+---------------+--------+-------+

把空值的 key 变成一个字符串加上随机数,就能把倾斜的数据分到不同的reduce上 ,解决数据倾斜问题。 concat('hehe',rand())

count distinct 引起的数据倾斜,可以先去重后再进行统计

scala> hivecon.sql("select  sex,count(distinct custname) from cust group by  sex").show
+----+------------------------+                                                
| sex|count(DISTINCT custname)|
+----+------------------------+
|null|                       1|
|   1|                       6|
|   0|                       3|
+----+------------------------+

scala> hivecon.sql("select sex,count(1) from (select  sex,custname from cust group by custname, sex) mm group by sex").show
+----+--------+
| sex|count(1)|
+----+--------+
|null|       1|
|   1|       6|
|   0|       3|
+----+--------+

3.map和reduce优化

小文件过多的时候合并小文件

hive> set hive.merge.mapfiles=true;

单个文件过大可以设置map的个数

hive数据倾斜原因以及解决办法的更多相关文章

  1. Hive 数据倾斜原因及解决方法(转)

    在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显.主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平 ...

  2. HBase快照迁移数据失败原因及解决办法

    目录 目录 1 1. 背景 1 2. 环境 1 3. 执行语句 1 4. 问题描述 1 5. 错误信息 2 6. 问题原因 3 7. 解决办法 4 1. 背景 机房裁撤,需将源HBase集群的数据迁移 ...

  3. Spark产生数据倾斜的原因以及解决办法

    Spark数据倾斜 产生原因 首先RDD的逻辑其实时表示一个对象集合.在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据集的子集.当spark调度并运行任务的时候,Spark会为每一个分 ...

  4. 实战 | Hive 数据倾斜问题定位排查及解决

    Hive 数据倾斜怎么发现,怎么定位,怎么解决 多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例.当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措 ...

  5. .Net内存泄露原因及解决办法

    .Net内存泄露原因及解决办法 1.    什么是.Net内存泄露 (1).NET 应用程序中的内存 您大概已经知道,.NET 应用程序中要使用多种类型的内存,包括:堆栈.非托管堆和托管堆.这里我们需 ...

  6. HttpClient的CircularRedirectException异常原因及解决办法

    HttpClient的CircularRedirectException异常原因及解决办法 这两天在使用我自己爬虫抓取网页的时候总是出现 org.apache.http.client.ClientPr ...

  7. mysql保存中文乱码的原因和解决办法

    当你遇到这个mysql保存中文乱码问题的时候,期待找到mysql保存中文乱码的原因和解决办法这样一篇能解决问题的文章是多么激动人心.    也许30%的程序员会选择自己百度,结果发现网友已经贴了很多类 ...

  8. html页面顶部出现一段空白,检查控制台发现body 下出现&#65279字符,原因及解决办法

    html页面顶部出现一段空白,检查控制台发现body 下出现&#65279字符,原因及解决办法 分析: 原来是页面编码时增加了BOM,此页面后端数据主要是PHP语言,对PHP来讲PHP在设计时 ...

  9. mysql数据库死锁的产生原因及解决办法

    这篇文章主要介绍了mysql数据库锁的产生原因及解决办法,需要的朋友可以参考下   数据库和操作系统一样,是一个多用户使用的共享资源.当多个用户并发地存取数据 时,在数据库中就会产生多个事务同时存取同 ...

随机推荐

  1. PHP localhost和127.0.0.1 的区别

  2. Linux Bash on Win10 (WSL)在cmder下使用vim时方向键失灵问题解决

    更改方法 由于cmder和bash.exe不兼容,如果你直接输入bash ~,那么进入子系统后将无法使用方向键和Home/PageUp/PageDown等键都无法使用,网上常见的cmder配置过程如下 ...

  3. 廖雪峰Java4反射与泛型-1反射-2访问字段Field和3调用方法Method

    2.字段Field 2.1.通过Class实例获取字段field信息: getField(name): 获取某个public的field,包括父类 getDeclaredField(name): 获取 ...

  4. WordPress更换主题空白问题

    刚才尝试着更换了一个主题,后来发现预览主页的时候是一片空白.查了很多资料,有说是index.php的权限问题,有说是插件问题,有说是UTL-8编码的问题,我都试过了,发现都不行,后来仔细研究了一下,发 ...

  5. folly无锁队列,尝试添加新的函数(续)

    基于上一篇文章,dropHead取出节点后,删除节点,会出现内存访问的问题.按照这个逻辑,如果将移出的节点保存到一个无锁队列中,然后在需要节点的时候,从这个备用的无锁队列中取出节点,那么应该就可以避开 ...

  6. Node.js做的代理转发服务器

    可以代理苹果ID服务器 const http = require('http'); const https = require('https'); const client = require('ht ...

  7. [UE4]工程设置:自动捕获鼠标、通过代码设置鼠标显示隐藏、输入模式、编译时自动保存

    一.在4.20版本中运行游戏,在没有进行任何设置的情况下,游戏不会自动捕获鼠标,游戏不会接受输入,需要手动点一下游戏界面才行.如果要跟老版本一样运行游戏自动捕获鼠标,需要进行设置 二.也可以通过代码的 ...

  8. [UE4]end快捷键,落地

    actor的根节点需要是实体模型才可以,end快捷键着地是让actor的根节点着地.

  9. JVM内存调优

    JVM性能调优有很多设置,这个参考JVM参数即可. 主要调优的目的: 控制GC的行为.GC是一个后台处理,但是它也是会消耗系统性能的,因此经常会根据系统运行的程序的特性来更改GC行为 控制JVM堆栈大 ...

  10. sqlserver数据库设计完整性与约束

    use StudentManageDB go --创建主键约束 if exists(select * from sysobjects where name='pk_StudentId') alter ...