Hive参数层面常用优化

1、hive数据仓库权限问题:

set hive.warehouse.subdir.inherit.perms=true;

2、HiveServer2的内存

连接的个数越多压力越大，可以加大内存；可以通过-Xmx设置，在脚本中设置：-Xmx=2048m 甚至 -Xmx=4g

3、关闭推测式任务：默认是打开的

set mapreduce.reduce.speculative=false;

set mapred.map.tasks.speculative.execution=false;

set mapred.reduce.tasks.speculative.execution=false;

4、客户端: 默认是关闭的

显示当前数据库：

set hive.cli.print.current.db = true;

显示头信息：

set hive.cli.print.header = true;

5、并行执行

每个查询被hive转化成一个或者多个stage，一个stage就是一个mapreduce作业；如果一个job有多个stage，并且每个stage是依赖的，那么这个job就不可以并行执行；如果stage之间关联性不大，则可以并行化执行，减少执行时间。并行数视集群而定，越大越好。

set hive.exec.parallel=true;    //默认是关闭的

set hive.exec.parallel.thread.number=;   //默认是8

对比执行时间：

set hive.exec.parallel=false;

select t1.event_time,t2.event_time,t3.event_time from(

select ordernumber, max(event_time) as event_time from order_created group by ordernumber

) t1

left outer join (

select ordernumber, max(event_time) as event_time from order_picked group by ordernumber

) t2 on t1.ordernumber = t2.ordernumber

left outer join (

select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber

) t3 on t1.ordernumber = t3.ordernumber;

一共5个mr job，job一个个的按顺序执行，一共花费94.974s

set hive.exec.parallel=true;

set hive.exec.parallel.thread.number=;

select t1.event_time,t2.event_time,t3.event_time from(

select ordernumber, max(event_time) as event_time from order_created group by ordernumber

) t1

left outer join (

select ordernumber, max(event_time) as event_time from order_picked group by ordernumber

) t2 on t1.ordernumber = t2.ordernumber

left outer join (

select ordernumber, max(event_time) as event_time from order_shipped group by ordernumber

) t3

on t1.ordernumber = t3.ordernumber;

一共5个mr job，其中有3个job同时启动并行执行，一共花费47.32s

7、Local Mode：小表在本地执行，最好是关闭

set hive.exec.mode.local.auto=true;

8、通过explain查看执行计划，查看有几个stage以及执行流程

explain select * from page_views;

explain extended select * from page_views;

9、队列设置：往指定的队列提交任务

set mapred.queue.name = hive

set mapred.job.queue.name = hive

有些版本需要两个都设置才好用，设置一个还不好使

设置任务的优先级别：

set mapred.job.priority = HIGH

10、JVM重用

测试用例：3台虚拟机，内存512M，5000个小文件大小约8G，不重用JVM耗时约1个小时，重用JVM耗时约35分钟；

结论：对于大量小文件的job，开启JVM重用可减少运行时间；

set mapred.job.reuse.jvm.num.tasks = ;

每个jvm执行多少个task，默认为1表示一个jvm运行一个task后就销毁，-1表示无限制；该参数也不是越大越好，建议设置到15-20个就够了；

11、分桶

set hive.enforce.bucketing=true;

set hive.enforce.sorting=true;

Hive参数层面常用优化的更多相关文章

Hive 常用优化参数
常用调优测试语句 : ①显示当前hive环境的参数值: set 参数名; 如: hive> set mapred.map.tasks;mapred.map.tasks; ②设置hi ...
hadoop入门到实战（6）hive常用优化方法总结
问题导读:1.如何理解列裁剪和分区裁剪?2.sort by代替order by优势在哪里?3.如何调整group by配置?4.如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库 ...
hive参数配置及任务优化
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@S ...
写好Hive 程序的若干优化技巧和实际案例
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效 ...
hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
hive查询注意及优化tips
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...
[Hive] - Hive参数含义详解
hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以 ...
linux内核参数注释与优化
目录 1.linux内核参数注释 2.两种修改内核参数方法 3.内核优化参数生产配置参数解释由网络上收集整理,常用优化参数对比了网上多个实际应用进行表格化整理,使查看更直观. 学习linux也有不少 ...
MongoDB在Linux下常用优化设置
MongoDB在Linux下常用优化设置以下是一些MongoDB推荐的常用优化设置.在生产环境下选取合适的参数值,例如预读值和默认文件描述符数目等,会对系统性能有很大的影响. 1.关闭数据库文件的 ...

随机推荐

[mysql] mysqldump 导出数据库表
1.mysqldump的几种常用方法: (1)导出整个数据库(包括数据库中的数据) mysqldump -u username -p dbname > dbname.sql (2)导出数据库结构 ...
jQuery checkbox相关
搬家来的~~~ $('#checkbox').attr('checked'); 返回的是checked或者是undefined解决办法分类: Jquery2014-03-18 17:10 5523 ...
Java ArrayList操作
import java.util.ArrayList; import java.util.List; import java.util.Iterator; public class Study { p ...
【linux】关机重启命令
shutdown: [参数][时间] -h:关机 -r:重启 -c:取消上一次关机或重启 [root@paulinux ~]# shutdown -h now ##马上重启 [root@paulinu ...
JDBC的URL设置allowMultiQueries的原因
如下的一个普通JDBC示例: String user ="root";String password = "root";String url = "j ...
Python try/except异常处理机制
1. use try, except, finally try: data=open('its.txt','w') print('its..', file=data) except: print('f ...
拒绝了对对象 '**' (数据库 'db',架构 'dbo')的 SELECT 权限
操作次数据库的用户的权限不够,因此只需要赋予相应的权限即可 MSSQL2005:具体数据库(xxx) --- 安全性---- 架构---- dbo(属性)--- 权限--- 添加--- 浏览-- [p ...
安装ORACLE后，改变计算机名称，导致OracleDBConsoleOrcl服务无法启动
错误信息: 启动oracledbconsoleorcl 服务提示 -- “--Windows不能再本地计算机启动oracledbconsoleorcl 有关更多信息,查阅系统事件日志,如果这是非Mi ...
c++中字符串处理函数
c++11中提供了to_string函数,定义在string中, 重载了一大片, std::string to_string( int value ); () (since C++) std::str ...
c/c++多线程编程中最好不要加volatile
来自https://www.zhihu.com/question/31459750 答主解释说:不能指望volatile能解决多线程竞争问题,除非所用的环境系统不可靠才会为了保险加上volatile, ...

Hive参数层面常用优化

Hive参数层面常用优化的更多相关文章

随机推荐

热门专题