HIVE SQL产生的文件数量及参数调优

　　产生背景：sqoop抽取oracle数据到hive表时，只能写入到固定分区（--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值）。于是先把数据抽取到一张增量表，然后从增量表动态写入分区表。

set hive.exec.dynamic.partition.mode = true;　　--使用动态分区时，设置为ture。

set hive.exec.dynamic.partition.mode = nonstrict;　　--动态分区模式，默认值：strict，表示必须指定一个分区为静态分区；nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstrict。

set hive.exec.max.dynamic.partitions.pernode =10;　　--在每个执行MR的节点上，最多可以创建多少个动态分区，默认值：100。

set hive.exec.max.dynamic.partitions =1000;　　--在所有执行MR的节点上，最多一共可以创建多少个动态分区，默认值：1000。

set hive.exec.max.created.files = 100000;　　--整个MR Job中最多可以创建多少个HDFS文件，默认值：100000。

set hive.error.on.empty.partition = false;　　--当有空分区产生时，是否抛出异常，默认值：false。

　　Hive文件产生大量小文件的原因：

　　　　一是文件本身的原因：小文件多，以及文件的大小；

　　　　二是使用动态分区，可能会导致产生大量分区，从而产生很多小文件，也会导致产生很多Mapper；

　　　　三是Reduce数量较多，Hive SQL输出文件的数量和Reduce的个数是一样的。

　　小文件带来的影响：

　　　　文件的数量和大小决定Mapper任务的数量，小文件越多，Mapper任务越多，每一个Mapper都会启动一个JVM来运行，所以这些任务的初始化和执行会花费大量的资源，严重影响性能。

　　　　在NameNode中每个文件大约占150字节，小文件多，会严重影响NameNode性能。

　　解决小文件问题：

　　　　如果动态分区数量不可预测，最好不用。如果用，最好使用distributed by分区字段，这样会对字段进行一个hash操作，把相同的分区给同一个Reduce处理；

　　　　减少Reduce数量；

　　　　进行以一些参数调整。

控制Mapper的数量：

　　决定Mapper的数量的因素有：输入文件的个数，输入文件的大小、集群设置的文件块大小。

　　　　例如：输入目录下有1个800M的文件，hadoop会将文件分成7个文件（6*128M + 1*32M），从而产生7个Mapper数；

　　　　例如：输入目录下有5个文件，分别为：15M、20M、50M、100M、150M，那么hadoop会分隔成6个文件（15M、20M、50M、100M、128M、22M），从而产生6个Mapper。

　　可以通过设置如下参数，让Map在执行之前合并小文件，从而减少Mapper数量：

set mapred.max.split.size=100000000; 　　-- 决定每个map处理的最大的文件大小，单位为B

set mapred.min.split.size.per.node=100000000; 　　-- 节点中可以处理的最小的文件大小

set mapred.min.split.size.per.rack=100000000; 　　-- 机架中可以处理的最小的文件大小

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;　　---实现map中的数据合并需要设置下面的参数，集群默认就是这个格式

　　控制Mapper的整体原则：

　　　　大数据量要利用合适的map数，单个map要处理合适的数据量；

　　　　map占用资源要合并小文件，map不足要把大文件拆成小文件。

控制Reduce的数量：

　　Reduce的个数会极大影响任务的执行效率

Hive自己确定reduce数

　　　　不指定Reduce的个数的情况下，Hive会猜测确定一个Reduce个数，由下面两个参数决定：

　　　　1、hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）

　　　　2、hive.exec.reducers.max（每个任务最大的reduce数，默认为999）

　　　　Reduce的个数N=min(参数2，输入总数据量/参数1)，例如：如果Reduce的输入（map的输出）总大小不超过1G，那么只有一个Reduce任务。

手动调整reduce数

　　　　Hive官网：

In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number>

In order to set a constant number of reducers: set mapreduce.job.reduces=<number>

　　Notes：动态分区采坑

　　　　在使用动态分区的时候，如果已知数据会分成n个分区，SQL运行的时候创建了m个Mapper，则这个SQL产生m * n个文件。如果这个数值大于设置的创建文件的总数（hive.exec.max.created.files），默认值100000个，就会出现异常。

　　　　在未知动态分区数时，可以使用distribute by 分区字段，将分区字段内容相同的数据放到同一个reduce，当然也可以使用distribute by rand()将数据随记分配给reduce，这样可以使每个reduce处理的数据大体相同。

和map一样，启动和初始化reduce会消耗时间和资源，有多少reduce就会产生多少个文件
以下情况下，会只有一个reduce：

没有group by的汇总，如把select dt,count(1) from test where dt = '2019-12-12' group by dt；，写成select count(1) from test where dt = '2019-12-12'；
用了order by；
有笛卡尔积；

　　控制Reduce的整体原则：

　　　　使大数据量利用合适的reduce数；

　　　　使单个reduce任务处理合适的数据量。

HIVE SQL产生的文件数量及参数调优的更多相关文章

大数据：Hive常用参数调优
1.limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果. 有一个配置属性可以开启,避免这种情况---对数据源进行抽样 hive.limit.optimize.e ...
1，Spark参数调优
Spark调优目录 Spark调优一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯二.参数调优资 ...
看MySQL的参数调优及数据库锁实践有这一篇足够了
史上最强MySQL参数调优及数据库锁实践 1. 应用优化 1.2 减少对MySQL的访问 1.2.1 避免对数据进行重复检索 1.2.2 增加cache层 1.3 负载均衡 1.3.1 利用MySQL ...
Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuff ...
Linux内核 TCP/IP、Socket参数调优
Linux内核 TCP/IP.Socket参数调优 2014-06-06 Harrison.... 阅 9611 转 165 转藏到我的图书馆微信分享: Doc1: /proc/sy ...
【转】XGBoost参数调优完全指南（附Python代码）
xgboost入门非常经典的材料,虽然读起来比较吃力,但是会有很大的帮助: 英文原文链接:https://www.analyticsvidhya.com/blog/2016/03/complete-g ...
php-fpm参数调优
关于php-fpm.conf参数调优,只对重要的参数进程调优.其它可参数前辈的. http://php.net/manual/zh/install.fpm.configuration.php (官方的 ...
XGBoost参数调优完全指南
简介如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧.XGBoost算法现在已经成为很多数据工程师的重要武器.它是一种十分精致的算法,可以处理各种不规则的数据.构造一个使用XGBoost ...
【Spark篇】---Spark中内存管理和Shuffle参数调优
一.前述 Spark内存管理 Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等 ...

随机推荐

SSM框架之Spring（3）IOC及依赖注入（基于注解的实现）
Spring(3)IOC及依赖注入(基于注解的实现) 学习基于注解的 IoC 配置,大家脑海里首先得有一个认知,即注解配置和 xml 配置要实现的功能都是一样的,都是要降低程序间的耦合.只是配置的形 ...
[browser srceen]、很多未知望大神告知、简单写了个拖拽
未知作用的有.如果也有像我1样好奇的小伙伴了解了麻烦告知 // console.log(window.screen.availWidth);//未知效果 // console.log(window.s ...
es6 之class介绍
class ECMAScript 2015 中引入的 JavaScript 类实质上是 JavaScript 现有的基于原型的继承的语法糖.类语法不会为JavaScript引入新的面向对象的继承模型. ...
iOS----------如何给github的README添加图片
1.在你的项目中建一个文件夹,专门存放图片.如果想简单操作的话,可以截个图直接拉到项目中. 2.将建好的文件夹上传到github进行同步 3.在github上找到图片的URL地址 4.按照如下格式 ...
Azure 架构师认证考试
Azure认证路线 AZ-300 AZ-301 https://blog.csdn.net/pg_edb/article/details/86794505 免费题 https://iteablue.c ...
[Go] go连接influxdb的库
开启了influxdb后,会监听8086端口下载客户端代码git clone https://github.com/influxdata/influxdb1-client.git $GOPATH/sr ...
ASA 笔记
show logging 缓存日志FW(config)# show run route 查看路由 FW(config)# ip verify reverse-path interface Outsid ...
201871010126 王亚涛《面向对象程序设计 (Java)》第十六周学习总结
内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p/12 ...
201871010123-吴丽丽《面向对象程序设计（Java）》第十六周学习总结
201871010123-吴丽丽 <面向对象程序设计(Java)>第十六周学习总结项目内容这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ ...
javaee和javase的区别
JavaEE是指Java Enterprise Edition,Java企业版,多用于企业级开发,包括web开发等等.也叫J2EE. JavaSE通常是指Java Standard Edition,J ...

HIVE SQL产生的文件数量及参数调优

HIVE SQL产生的文件数量及参数调优的更多相关文章

随机推荐

热门专题