Hive调优参数配置

Hive进行大数据处理的过程中经常遇到一个任务跑几个小时或者内存溢出等问题，平时会任务执行的遇到的问题

进行参数的调整配置，收集整理的配置参考如下：

set dfs.namenode.handler.count=20;

set mapred.task.timeout=36000000;

set hive.cbo.enable=true;

set hive.compute.query.using.stats=true;

set hive.stats.fetch.column.stats=true;

set hive.stats.fetch.partition.stats=true;

set hive.exec.parallel.thread.number=8;

set hive.auto.convert.join=true;

set hive.mapjoin.smalltable.filesize=25000;

set hive.merge.mapfiles=true;

set hive.merge.mapredfiles=true;

set hive.merge.size.per.task=256000000;

set mapred.max.split.size=256000000;

set mapred.min.split.size.per.node=256000000;

set mapred.min.split.size.per.rack=256000000;

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

set hive.merge.size.per.task=256000000;

set hive.merge.smallfiles.avgsize=256000000;

set hive.map.aggr.hash.percentmemory=0.25;

set mapred.map.tasks.speculative.execution=true;

set mapred.reduce.tasks.speculative.execution=true;

set hive.mapred.reduce.tasks.speculative.execution=true;

set dfs.namenode.handler.count=20;

nameNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用。处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大参数dfs.namenode.handler.count的默认值10。设置该值的一般原则是将其设置为集群大小的自然对数乘以20，即20logN，N为集群大小。

set mapred.task.timeout=36000000;

job的超时属性，默认600000ms，即600s，可以通过设置该属性防止死循环，具体大小可根据任务的具体情况进行设定。

set hive.cbo.enable=true;

如果数据已经根据相同的key做好聚合，则去除多余的map/reduce作业

set hive.cbo.enable=true;

set hive.compute.query.using.stats=true;

set hive.stats.fetch.column.stats=true;

set hive.stats.fetch.partition.stats=true;

COST BASED QUERY OPTIMIZATION(CBO) cbo可以优化hive的每次查询，使用CBO，需要开启上面四个选项。

Hive调优参数配置的更多相关文章

centos 8.3系统调优参数配置
临时设置最大虚拟内存 [root@Sonnarqube-dev ~]# sysctl -w vm.max_map_count=262144 执行结果 vm.max_map_count = 26214 ...
hive 调优（二）参数调优汇总
在hive调优(一) 中说了一些常见的调优,但是觉得参数涉及不多,补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maximum 每个tasktracker ...
Hive调优
Hive存储格式选择和Hive 相关优化: 压缩参考 Hive支持的存储数的格式主要有:TEXTFILE .SEQUENCEFILE.ORC.PARQUET. 文件存储格式列式存储和行式存储行存 ...
【Hive六】Hive调优小结
Hive调优 Hive调优 Fetch抓取本地模式表的优化小表.大表Join 大表Join大表 MapJoin Group By Count(Distinct) 去重统计行列过滤动态分区调整 ...
第4节 hive调优：2、数据倾斜
数据的倾斜: 主要就是合理的控制我们的map个数以及reduce个数第一个问题:maptask的个数怎么定的???与我们文件的block块相关,默认一个block块就是对应一个maptask 第二个 ...
(转) hive调优（2）
hive 调优(二)参数调优汇总在hive调优(一) 中说了一些常见的调优,但是觉得参数涉及不多,补充如下 1.设置合理solt数 mapred.tasktracker.map.tasks.maxi ...
（转）hive调优(1) coding调优
hive 调优(一)coding调优本人认为hive是很好的工具,目前支持mr,tez,spark执行引擎,有些大公司原来封装的sparksql,开发py脚本,但是目前hive支持spark引擎(不 ...
Hive调优相关
前言 Hive是由Facebook 开源用于解决海量结构化日志的数据统计,是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能. 在资源有限的情况下,提 ...
Dubbo性能调优参数及原理
本文是针对 Dubbo 协议调用的调优指导,详细说明常用调优参数的作用域及源码. Dubbo调用模型常用性能调优参数参数名作用范围默认值说明备注 threads provider 200 ...

随机推荐

ESP8266内置的定时器库--Ticker库
Ticker的功能非常简单,就是规定时间后调用函数总体上,根据功能可以把方法分为两大类: 定时器管理方法: 定时器启用方法: detach() 停止定时器 active() 定时器是否 ...
mongodb切片配置方法
---------------------------------切片架构图-------------------------------------------------------------- ...
设计模式来替代if-else
前言# 物流行业中,通常会涉及到EDI报文(XML格式文件)传输和回执接收,每发送一份EDI报文,后续都会收到与之关联的回执(标识该数据在第三方系统中的流转状态).这里枚举几种回执类型:MT1101. ...
delphi回调函数高级应用
用法一 Type TProc=procedure() of object; procedure Callback(proc:TProc); begin ... end; procedure mypro ...
Redis实战（十三）Redis的三种集群方式
序言能聊聊redis cluster集群模式的原理吗资料 https://www.cnblogs.com/51life/p/10233340.html Redis 集群分片原理
【机器学习速成宝典】模型篇06决策树【ID3、C4.5、CART】（Python版）
目录什么是决策树(Decision Tree) 特征选择使用ID3算法生成决策树使用C4.5算法生成决策树使用CART算法生成决策树预剪枝和后剪枝应用:遇到连续与缺失值怎么办? 多变量决策 ...
modern php笔记---2.1、特性（命名空间、特性、性状）
modern php笔记---2.1.特性(命名空间.特性.性状) 一.总结一句话总结: legend2是真的非常好用,资质起码提升5倍,也就是学习效率提升了起码5倍 1.命名空间实质? 从技术层面 ...
2017-03-04 idea破解
https://blog.csdn.net/qq_27686779/article/details/78870816 防止原址被删除,备份下,亲测可用 http://idea.java.sx/ 简单快 ...
maven依赖传递和排除依赖冲突
1 依赖的传递假如 A项目依赖 a.jar 1.0.1,b.jar 1.0.1,没有直接依赖c.jar 1.0.1,但是b.jar 1.0.1依赖了c.jar 1.0.1,可以说A项目间接依赖了c ...
在aspx页面的checkbox取值验证
在做项目的时候遇到了一个选择性的问题,之前都可以用$("#id").checked,但是不知道为什么现在不可以了,只能if($(this).is(":checked&qu ...

Hive调优参数配置

Hive调优参数配置的更多相关文章

随机推荐

热门专题