3.11-3.14 Hive 企业使用优化2
一、查看HQL执行计划explain
1、explain
hive在执行的时候会把所对应的SQL语句都会转换成mapreduce代码执行,但是具体的MR执行信息我们怎样才能看出来呢?
这里就用到了explain的关键字,他可详细的表示出在执行所对应的语句所对应的MR代码。
语法格式如下。extended关键字可以更加详细的列举出代码的执行过程。 Hive提供了一个EXPLAIN显示查询执行计划的命令。该语句的语法如下:
EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query explain会把查询语句转化成阶段组成的序列,主要由三方面组成:
*查询的抽象语法树
*计划的不同阶段之间的依赖关系
*每个阶段的描述
2、使用
#explain基本使用
hive (default)> explain select * from emp;
OK
Explain
STAGE DEPENDENCIES:
Stage-0 is a root stage STAGE PLANS:
Stage: Stage-0
Fetch Operator
limit: -1
Processor Tree:
TableScan
alias: emp
Statistics: Num rows: 2 Data size: 659 Basic stats: COMPLETE Column stats: NONE
Select Operator
expressions: empno (type: int), ename (type: string), job (type: string), mgr (type: int), hiredate (type: string), sal (type: double), comm (type: double), deptno (type: int)
outputColumnNames: _col0, _col1, _col2, _col3, _col4, _col5, _col6, _col7
Statistics: Num rows: 2 Data size: 659 Basic stats: COMPLETE Column stats: NONE
ListSink Time taken: 0.063 seconds, Fetched: 17 row(s)
二、并行执行
1、
hive会将一个查询转化为一个或多个阶段,包括:MapReduce阶段、抽样阶段、合并阶段、limit阶段等。
默认情况下,一次只执行一个阶段。 不过,如果某些阶段不是互相依赖,是可以并行执行的。 set hive.exec.parallel=true,可以开启并发执行。
set hive.exec.parallel.thread.number=15; //同一个sql允许最大并行度,默认为8,一般10-20之间。 并行执行是在系统资源比较空闲的时候才有优势,否则,没资源,并行也起不来。
三、JVM重用
JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,
这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduce任务的,这是jvm的启动过程可能会造成相当大的开销,
尤其是执行的job包含有成千上万个task任务的情况。 JVM重用可以使得JVM实例在同一个JOB中重新使用N次,N的值可以在Hadoop的mapre-site.xml文件中进行设置 mapred.job.reuse.jvm.num.tasks 也可在hive的执行设置: set mapred.job.reuse.jvm.num.tasks=8; #此值一般不超过9 JVM的一个缺点是,开启JVM重用将会一直占用使用到的task插槽,以便进行重用,直到任务完成后才能释放。
如果某个“不平衡“的job中有几个reduce task 执行的时间要比其他reduce task消耗的时间多得多的话,那么保留的插槽
就会一直空闲着却无法被其他的job使用,直到所有的task都结束了才会释放。
四、map、Reduce数目
1、map数目
map数量:
算法 MapTask的个数=输入文件总大小/分片尺寸,个人理解就是输出的文件数量 原因:系统对输入的源文件依照Block的尺寸分片,并在执行Job时安排一个Map Task处理一个Block的 或者由mapred.map.task数量决定,但是如果这个参数不合理的话,会失效 小文件不分片 压缩文件无法被切分 ######优化建议######## 优化原因
:
map数量过少则导致并发度减小,job过长;若大量作业,则会堵塞; 减小map数量:合并小文件(hive0.7之后会自动合并) ,是优化的策略 map阶段会输出过多小文件,而初始化和创建map的开销很大,在 block 数据量偏少的情况下,单个任务运行的时间就少,
那么任务开启的开销很可 能占据总开销的大量比例
; 如果已知数据源中小文件过多,用户最好在向新表导入数据之前就打开automerge 开关,使一个 Task 处理多个 block。
因为同属一个 Task 的结果将被返回在同一个文件中,因此导入数据时做任务的合并处理可达到小文件合并效果。
然后关闭automerge 开关,今后都不用再对该表开启
; 除了检查 block 的大小,还可以通过在 4040 端口查看任务第一阶段 Tasks 的数量和每Task 的运行时间判断是否
需要 automerge 第一阶段的 Task 负责 Map 端任务,默认每个Task 对应一个 block,所以如果第一阶段 Task 过多而且单个执行时间短,
表示小体积 block 多,Task 运行效率低,需要启用 automerge。注意,不建议为每个线程安排过多的 block。
在调整相关参数时注意,所设计的下限要尽量保证单个 Task 的处理时间不要低于 2s,调 整的上线不能使对应的; 合并之后的大小最好控制在 256M以内,能实现较好的性能(这只是个参 考值,具体情况需根据实际数据量和列数而定) 查看实际运行时 GC的状况,如果大部分 Tasks的 GC时间占Task运行时间的 15%以内,可以合并的更多一些。
GC时间可以在 4040界面观察 ; 查看每个Task的执行时间,最好不要超过2分钟。如果太长,很可能 会产生 GC问题和拖尾效应,
即某个 Task过长而导致的整体运行时间 过长。这时应适当增加 Task
; 选取 automerge参数时,在设计下限的时候,尽量保证单个 Task 的处理时间不要低于 2s 增加map数量:上一个job的reduce
2、reduce数目
##reduce数量
过少:如果数据量很大,会导致这个reduce异常的慢,从而导致这个任务不能结束,也有可能会OOM 过多:产生的小文件太多,合并起来代价太高,namenode的内存占用也会增大。如果我们不指定mapred.reduce.tasks,
hive会自动计算需要多少个reducer
; 由map端数据复制到Reduce端的数据大小决定; 有很多任务是没有reduce的过程的
; 可以通过设置mapred.reduce.task来控制reduce数
; Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定: 1. hive.exec.reducers.bytes.per.reducer(默认为1000^3) 这个参数控制一个job会有多少个reducer来处理,依据的是输入文件的总大小。默认1GB 2. hive.exec.reducers.max(默认为999) 如果 input / bytes per reduce > max 则会启动这个参数所指定的reduce个数。 这个并不会影响mapre.reduce.tasks参数的设置 计算reducer数的公式很简单:N=min(参数2,总输入数据量/参数1) 通常情况下,有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定reducer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数) 通常(不是绝对),大表 JOIN或者 GROUPBY后,产生的数据量相对原始数据小很多。这时可以减少后面 ReduceTask的数目,使 Reduce Task的启动 更有价值 针对 GROUP BY、JOIN、INRTERSACT、EXCEPT、EXTRACT 这五个操作,改变两个 Task数目比例分别对应的语句: SEThive.groupby.aggregateratio=0.6; SEThive.join.aggregateratio=1.0; SEThive.intersect.aggregateratio=1.0; SEThive.except.aggregateratio=1.0; SEThive.extract.aggregateratio=1.0; 小文件过多时参数设置: set ngmr.partition.automerge=true;
set ngmr.partition.mergesize.mb=-1 合并以后每个task最多处理的数据量大小,-1表示关闭该参数 默认8M;优先级大于ngmr.partition;mergesize 设置一个Block大小,单位MB,-1默认不执行 可以根据任务设置大小,比如200、300等 set ngmr.partition.mergesize=3; 表示将 n 个 block 安排给单个线程处理
;
参数3代表当前3个tasks合并成一个task
;
可以根据需要仅设置这两个参数(mergesize.mb)其中之一,默认使用方法 mergesize.mb来控制
;
如果需要使用方法 mergesize,需要将 mergesize.mb 设为-1。
五、推测执行
在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,
有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。
为了避免这种情况发生,Hadoop采用了推测执行(Speculative Execution)机制,它根据一定的法则推测出“拖后腿”的任务,并为这样的任务启动一个备份任务,
让该任务与原始任务同时处理同一份数据,并最终选用最先成功运行完成任务的计算结果作为最终结果。
关于调优这些推测执行变量,还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话,那么可以将这些功能开启。
如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话,那么启动推测执行造成的浪费是非常巨大大。
mapreduce.map.speculative true
hive.mapred.reduce.tasks.speculative.execution true
mapreduce.reduce.speculative true
六、动态分区调整
往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。
(比如按天进行分区,一天一个,......太多了)
因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 -动态分区属性:设置为true表示开启动态分区功能(默认为false)
hive.exec.dynamic.partition=true; -动态分区属性:设置为nonstrict,表示允许所有分区都是动态的(默认为strict)
-设置为strict,表示必须保证至少有一个分区是静态的
hive.exec.dynamic.partition.mode=strict; -动态分区属性;每个mapper 或reducer可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions.pernode=100; -动态分区属性:一个动态分区创建语句可以创建的最大动态分区个数
hive.exec.max.dynamic.partitions=1000; -动态分区属性:全局可以创建的最大文件个数
hive.exec.max.created.files=100000; 尽量不要用动态分区,因为动态分区的时候,将会为每一个分区分配reducer数量,当分区数量多的时候,
reducer数量将会增加,对服务器是一种灾难。
七、严格模式(strict mode)
对分区表进行查询,在where子句中没有加分区过滤的话,将禁止提交任务(默认:nonstrict) set hive.mapred.mode=strict; 注:使用严格模式可以禁止3种类型的查询:
(1)对于分区表,不加分区字段过滤条件,不能执行
(2)对于order by 语句,必须使用limit语句。
(3)限制笛卡尔积的查询(join的时候不使用on,而使用where的)。
3.11-3.14 Hive 企业使用优化2的更多相关文章
- 3.7-3.10 Hive 企业使用优化1
一.Fetch Task 在执行hive代码的时候,一条简单的命令大部分都会转换成为mr代码在后台执行, 但是有时候我们仅仅只是想获取一部分数据而已,仅仅是获取数据,还需要转化成为mr去执行吗? 那个 ...
- 深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景 作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
- HDP Hive StorageHandler 下推优化的坑
关键词:hdp , hive , StorageHandler 了解Hive StorageHandler的同学都知道,StorageHandler作为Hive适配不同存储的拓展类,同时肩负着Hive ...
- 本周MySQL官方verified/open的bug列表(11月8日至11月14日)
本周MySQL verified的bug列表(11月8日至11月14日) 1. Bug #70859-DWITH_EXAMPLE_STORAGE_ENGINE=1 is ignored URL ...
- hive的join优化
“国际大学生节”又称“世界大学生节”.“世界学生日”.“国际学生日”.1946年,世界各国学生代表于布拉格召开全世界学生大会,宣布把每年的11月17日定为“世界大学生节”,以加强全世界大学生的团结和友 ...
- 2016年11月14日 星期一 --出埃及记 Exodus 20:5
2016年11月14日 星期一 --出埃及记 Exodus 20:5 You shall not bow down to them or worship them; for I, the LORD y ...
- 14.2 Go性能优化
14.2 Go性能优化 优化手段 1.减少HTTP请求数,合并CSS.JS.图片 2.使用CDN,就近访问 3.启用nginx gzip压缩,降低传输内容大小 4.优化后端api性能 api服务性能优 ...
- hive中的优化问题
一.fetch抓取 fetch 抓取是指,hive中对某些情况的查询可以不必使用MapReduce计算.(1)把hive.fetch.task.conversion 设置成none,然后执行查询语句, ...
- 大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关 ...
随机推荐
- 做QA的日子——iOS測试入门(四)
坦言,做QA的这半年我没有成长,就算有成长也非常少,我非常难过.和身边的人讲事实上并没有谁能真正理解自己的难过,事实上还是自己不够努力.对自己不够狠,以前认为自己不够幸运,想有一个更好的指路人,事实上 ...
- ubuntu安装交叉编译工具链
一.sudo su 切换到root用户权限 二.将arm-linux-gcc-4.3.2.tgz从windows拷贝到Linux /home/ttt/arm-linux-gcc-4.3.2.tgz ...
- 解压 boot.img
./split_bootimg.pl boot.img Page size: 2048 (0x00000800) Kernel size: 7062084 (0x006bc244) Ramdisk s ...
- 计算IMEI号的校验位
计算IMEI号的校验位 移动设备国际识别码(IMEI:International Mobile Equipment Identification Number)是差别移动设备的标志,具有唯一性,贴在手 ...
- 九度OJ 1098:字母统计 (计数)
时间限制:1 秒 内存限制:32 兆 特殊判题:否 提交:3720 解决:1809 题目描述: 输入一行字符串,计算其中A-Z大写字母出现的次数 输入: 案例可能有多组,每个案例输入为一行字符串. 输 ...
- openjdk源码目录结构
1 openjdk源码 http://hg.openjdk.java.net 选择jdk8u这个project, 然后选择jdk8u20这个repository. 2 目录结构 corba: comm ...
- h5 移动端 关于监测切换程序到后台或息屏事件和visibilitychange的使用
需求:当我们页面上正在播放视频或者播放背景音乐时,我们屏幕自动息屏或者切换程序去看消息时,我们希望暂停视频或背景音乐,回到程序我们希望继续播放视频或播放背景音乐.小程序上提供了 onUnload返回 ...
- [RK3288][Android6.0] 调试笔记 --- 移除uboot和kernel开机logo【转】
本文转载自:http://blog.csdn.net/kris_fei/article/details/71600690 Platform: RockchipOS: Android 6.0Kernel ...
- 千锋很火的SpringBoot实战开发教程视频
springboot是什么? Spring Boot是由Pivotal团队提供的全新框架,其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置,从而使开发人员 ...
- Oracle在Java中事物管理
对于 对数据库中的数据做dml操作时,能够回滚,这一事物是很重要的 下面例子是对数据库中数据进行修改 package com.demo.oracle; import java.sql.Connecti ...