Hive、Spark优化案例

一.Join原则

将条目少的表/子查询放在Join的左边。原因：在Join的reduce阶段，位于Join左边的表的内容会被加载进内存，条目少的表放在左边，可以减少发生内存溢出的几率。
小表关联大表：用MapJoin把小表全部加载到内存在map端Join，避免reducer处理。如：
```
select /*+ MapJoin(user)*/ l.session_id,u.username

from user u

join page_views l

on u.id  = l.user_id
```

二.控制map数量

　　例：input目录下有一个文件a，大小780M。分成7块（6*128+12M），产生七个map

　　减少map:合并小文件（对数据源来讲）

　　增加map:控制上一个job的reducer数

三.设置合理的reducer个数

　　reducer过多：生成很多小文件，作为下一个任务的输入

　　reducer过少：执行效率低

四.注意事项

只支持insert/load操作，无update/del
Hive 0.10之前版本无索引
不支持having
不支持where子句的子查询
join只支持等值关联
String类型没有长度限制

案例一.脚本运行太慢

　　原因：表太大，使用了count(distinct)来统计，造成了数据倾斜，大量数据在一个reduce进行运算

　　优化：使用group by 替换，将大表根据指标条件，拆分成8个表

案例二.关联顺序不同导致数据缺失

　　问题：测试报表时，发现周/月的累计用户小于同日期的7/30天数据相加的和

　　原因：关联顺序写错了

　　解决：累计用户 left 活跃用户 /新增用户（即使用数据较全的表在最左边进行左关联）或使用union all

　　说明：当某个应用当天不活跃时，在活跃表中该应用ID为空或者不存在，就无法关联累计用户所在的表。

案例三.Spark偶尔遇到Full GC，任务会执行很久

　　原因：默认Full GC 30min一次

　　解决：调整参数 spark.cleaner.periodGC.interval = 270min

案例四.Spark-submit 部分参数没设置，导致spark执行过慢

　　原因：核心字段内容为null，导致性能非常差

　　解决：设置核心字段参数默认值

Hive、Spark优化案例的更多相关文章

Hive优化案例
1.Hadoop计算框架的特点数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map re ...
Spark集群之yarn提交作业优化案例
Spark集群之yarn提交作业优化案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.启动Hadoop集群 1>.自定义批量管理脚本 [yinzhengjie@s101 ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
常见的七种Hadoop和Spark项目案例
常见的七种Hadoop和Spark项目案例有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情.如比较火爆的Hadoop.Sp ...
Hive SQL优化思路
Hive的优化主要分为:配置优化.SQL语句优化.任务优化等方案.其中在开发过程中主要涉及到的可能是SQL优化这块. 优化的核心思想是: 减少数据量(例如分区.列剪裁) 避免数据倾斜(例如加参数.Ke ...
数据库优化案例——————某市中心医院HIS系统
记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也开始分享自己做的优化案例. 最近一直很忙,博客产出也少的 ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
mysql优化案例
MySQL优化案例 Mysql5.1大表分区效率测试 Mysql5.1大表分区效率测试MySQL | add at 2009-03-27 12:29:31 by PConline | view:60, ...
SQL 优化案例 1
create or replace procedure SP_GET_NEWEST_CAPTCHA( v_ACCOUNT_ID in VARCHAR2, --接收短信的手机号 v_Tail_num i ...

随机推荐

设备程序远程升级采用两种方式（优先采用IP方式）
设备程序远程升级采用两种方式(优先采用IP方式): 采用应急广播TS流传输技术规范的消息内容表携带升级包数据.当辅助数据类型值为44时,消息内容表传输的数据为程序升级包. 采用IP方式传输升级包数据. ...
微信小程序的拖拽、缩放和旋转手势
在开发中,有时会遇到像App中的手势那样的效果,下面就仿照App实现了一下. wxml部分: <view class="touch-container"> <vi ...
CSP-S全国模拟赛第四场【nan？】
本来想抢三题的 rk1 ?[无耻最后发现 T2 好像还是慢了些,只搞了个 rk2 子段与子段第一题随便分析一下,发现一段区间中某个元素的贡献次数就是 \((x+1)·(y+1)\) x 是他左边的 ...
Ubantu 手动设置DSL连接
参考链接:https://m.linuxidc.com/Linux/2015-07/119774.htm
_proto_和prototype的区别
1. _proto_和prototype prototype属性是一个静态属性, _proto_属性是一个实例属性. prototype表示类的原型对象,_proto_表示原型对象中定义的内部属性[p ...
在 sessionStorage存储json对象
目的:A页面存的东西要从B页面拿到因为sessionStorage.setItem("key","value")内存储的都是字符串,所以,如果以对象的形式存到 ...
在vue的js文件引入自定义js文件
自定义js var provinces=[] export default provinces vue页面js引入 import riskLeft from "./index.js" ...
在docker容器中为elasticsearch配置跨域访问
一.在docker容器中进入elasticsearch对应的容器 docker exec -it [容器名] /bin/bash 二.安装vim编辑器因为我们需要更改配置文件,安装过的朋友就不用安装 ...
vue修改富文本中的元素样式
富文本编辑器目前应用很广泛,而有时候我们想要对其中的一些元素的样式进行修改,就会遇到问题. 首先,直接修改是不可行的,因为是用v-html标签进行渲染的,无法直接获取到. 在修改的时候,一般是按标签进 ...
[易学易懂系列|golang语言|零基础|快速入门|（四）]
今天开始,我们来写代码. 学习一门语言,最快的方式就是写代码,做项目. 别的学习教程,都是hello world. 我们就来点不一样的吧.我们不一样!不一样!不一样! 首先,打开VSCODE.( 关于 ...

Hive、Spark优化案例

Hive、Spark优化案例的更多相关文章

随机推荐

热门专题