hive set 常用参数汇总

1、 set hive.auto.convert.join = true;

mapJoin的主要意思就是，当链接的两个表是一个比较小的表和一个特别大的表的时候，我们把比较小的table直接放到内存中去，然后再对比较大的表格进行map操作。join就发生在map操作的时候，每当扫描一个大的table中的数据，就要去去查看小表的数据，哪条与之相符，继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle。在本质上mapjoin根本就没有运行MR进程，仅仅是在内存就进行了两个表的联合。

2、 set mapred.job.priority = VERY_HIGH; --设置任务优先级

3、set mapred.output.compress = true;

set hive.exec.compress.output = true;

压缩最终结果

4、SET hive.default.fileformat = Orc; -- 设置默认文件格式

ORC File，它的全名是Optimized Row Columnar (ORC) file，其实就是对RCFile做了一些优化。据官方文档介绍，这种文件格式可以提供一种高效的方法来存储Hive数据。

它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。

5、set hive.exec.dynamic.partition=true; 是开启动态分区

set hive.exec.dynamic.partition.mode=nonstrict; 这个属性默认值是strict,就是要求分区字段必须有一个是静态的分区值，随后会讲到，当前设置为nonstrict,那么可以全部动态分区.

7、动态分区参数设置

set hive.exec.max.dynamic.partitions = 130000;
set hive.exec.max.dynamic.partitions.pernode = 130000;

set hive.exec.max.created.files = 200000;

当对hive分区未做设置时，报错如下：

Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dynamic partitions. The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions and hive.exec.max.dynamic.partitions.pernode. Maximum was set to: 5000

at org.apache.hadoop.hive.ql.exec.FileSinkOperator.getDynOutPaths(FileSinkOperator.java:877)

at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:657)

at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:815)

at org.apache.hadoop.hive.ql.exec.SelectOperator.processOp(SelectOperator.java:84)

at org.apache.hadoop.hive.ql.exec.mr.ExecReducer.reduce(ExecReducer.java:244)

... 7 more

超过了最大的分区数设置

解决办法：

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

set hive.exec.max.dynamic.partitions.pernode=600000;

set hive.exec.max.dynamic.partitions=6000000;

set hive.exec.max.created.files=6000000;

8、set mapreduce.map.cpu.vcores = 4; -- 每个Map Task需要的虚拟CPU个数

set mapreduce.reduce.cpu.vcores = 8; -- 每个Reduce Task需要的虚拟CPU个数

9、set mapreduce.map.memory.mb = 8192; -- 每个Map Task需要的内存量

set mapreduce.reduce.memory.mb = 10500; -- 每个Reduce Task需要的内存量

10、set hive.exec.parallel = true;

set hive.exec.parallel.thread.number = 16;

ive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.
当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行.

而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时运行8个job.

比如union操作

11、set yarn.app.mapreduce.am.resource.mb = 10000; -- MR ApplicationMaster占用的内存量

set yarn.app.mapreduce.am.command - opts = - Xmx10000m; --

12、

set mapreduce.map.java.opts = - Xmx9192m; -- 设置Map任务JVM的堆空间大小，默认-Xmx1024m
set mapreduce.reduce.java.opts = - Xmx10000m; -- 设置reduce任务JVM的堆空间大小，默认-Xmx1024m

13、

set spark.sql.hive.mergeFiles=true; 合并小文件

hive set 常用参数汇总的更多相关文章

hive & hive beeline常用参数
Hive 1参数如下: usage: hive -d,--define <key=value> Variable substitution to apply to Hive command ...
Django框架ORM常用参数汇总_模型层
primary_key 如果为True,那么这个字段就是模型的主键. 如果你没有指定任何一个字段的primary_key=True, Django就会自动添加一个IntegerField字段做为主键, ...
Hive 教程(五)-参数配置
配置基本操作 hive> set; 查看所有配置hive> set key: 查看某个配置hive> set key value: 设置某个配置我们可以看到一些 hadoop 的配 ...
[Hive_add_8] Hive 常用参数配置
0. 说明记录 Hive 常用参数的配置 1. 设置本地模式让 Hive 自动使用 Hadoop 的本地模式运行作业,提升处理性能适合小文件,一般用于测试 set hive.exec.mode. ...
Hive设置配置参数的方法，列举8个常用配置
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1).修改${HIVE_HOME}/conf/hive-site.xml配置文件: (2).命令行参数: (3).在已经 ...
20145222《信息安全系统设计基础》Linux常用命令汇总
学习Linux时常用命令汇总通过Ctrl+f键可在该网页搜索到你想要的命令. Linux中命令格式为:command [options] [arguments] //中括号代表是可选的,即有些命令不 ...
Oozie命令行常用命令汇总[转]
Oozie命令行常用命令汇总有时候脚本跑多了就不愿意在OozieWeb端去看脚本的运行情况了.还好Oozie提供了很多命令行命令.能通过命令行直接检索自己想看到的脚本信息.在这里简单进行一下总结.一 ...
JavaScript之Array常用函数汇总
[20141121]JavaScript之Array常用功能汇总 *:first-child { margin-top: 0 !important; } body>*:last-child { ...
JVM参数汇总
一.java启动参数共分为三类: 其一是标准参数(-),所有的JVM实现都必须实现这些参数的功能,而且向后兼容:其二是非标准参数(-X),默认jvm实现这些参数的功能,但是并不保证所有jvm实现都满足 ...

随机推荐

错误: 在类中找不到 main 方法, 请将 main 方法定义为:public static void main(String[] args)否则 JavaFX 应用程序类必须扩展javafx.ap
最近在使用eclipse编写java程序时遇到这样一个问题: 错误在类中找不到main方法,请将main方法定义为 public static void main(String[] args)否则 J ...
javaScript函数节流与函数防抖
javaScript函数节流与防抖之区别函数防抖(debounce)与函数节流(throttle)都是为了限制函数的执行频次,以优化函数触发频率过高导致的响应速度跟不上触发频率,出现延迟.假死或卡顿 ...
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间 ...
IDEA中的常用设置
ps:对于开发工具,不同的开发人员有不同的设置喜好,这里介绍的是我个人的配置,不喜勿喷. Appearance:个人喜欢全黑主题,雅黑字体背景图片, 效果如下,编写代码的时候有个自己喜欢的背景图片, ...
Lua脚本性能优化指南
https://github.com/flily/lua-performance/blob/master/Guide.zh.md https://springrts.com/wiki/Lua_Perf ...
mongodb安装、配置
1.下载: https://www.mongodb.com/download-center#community 2.进入到mongodb下载目录: a .新建data目录:mkdir data; b. ...
JS将日期转为距现在的时间长度
最近在弄一个回忆网站,其中有个一板块类似于情侣空间的纪念日. 照着弄了个类似的,效果如下: 在处理过程中需要把时间戳转为Date()对象,然后与本地时间相减获得时间差,通过运算转换成对应的年月日时长, ...
BZOJ2647 : [Neerc2011]Journey
$|x|+|y|=\max(x+y,x-y,-x+y,-x-y)$,设$f[i][j]$表示在$(0,0)$,朝向方向$j$,执行第$i$条指令后的信息: $cir$:是否陷入循环 $d$:朝向 $x ...
BZOJ4039 : 集会
将曼哈顿距离转化为切比雪夫距离,即: $|x_1-x_2|+|y_1-y_2|=\max(|(x_1+y_1)-(x_2+y_2)|,|(x_1-y_1)-(x_2-y_2)|)$ 那么每个点能接受的 ...
redis:消息发布与订阅频道
1. 发布与订阅频道消息发布与订阅像收音机与广播台的关系 1.1. publish channel message 发布频道语法:publish channel message 作用:发布频道消息 ...

hive set 常用参数汇总

hive set 常用参数汇总的更多相关文章

随机推荐

热门专题