参考：

https://blog.csdn.net/wuliusir/article/details/45010129

https://blog.csdn.net/zhong_han_jun/article/details/50814246

1.split的计算方式：

splitsize = max(splitsize,min(blocksize,filesize/NUMmaps))

NUMmaps即为默认的map数，默认为1，也就是说最大的splitsize为文件的大小。

2.不同的hive.input.format时map个数

hive 的split size在使用不同的input format时依赖的参数不同。

hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

此时由以下三个参数控制

mapred.max.split.size  #控制最大split

mapred.min.split.size.per.node #控制最小split,优先级低

mapred.min.split.size.per.rack #控制最小split,优先级高

hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat

此时由

mapred.min.split.size

mapred.map.tasks #可以忽略，默认为1

在做split时，不如一个split的数据也会放到一个map执行，如果splitsize 128m,文件150m，则会有两个map，一个128m，另外一个22m，这样两个map执行的时间就不一样了

注意

把mapred.min.split.size\mapred.min.split.size.per.node 从128M增加到256M，可能并不会降低map数，这时需要增大数值，一边增加一边测试

3.reduce个数

reduce可以通过设置set mapred.reduce.tasks=100来指定个数，或者指定reduce计算的数据，set hive.exec.reducers.bytes.per.reducer=1073741824

以下是个样例：

set mapred.max.split.size=1024000000;

set mapred.min.split.size.per.node=512000000;

set mapred.min.split.size.per.rack=512000000;

set mapreduce.task.io.sort.mb=200;

set hive.exec.parallel.thread.number=1  ;

set mapred.reduce.tasks = 314;

set mapreduce.map.memory.mb=1024;

set mapreduce.task.io.sort.factor=50;

来自为知笔记(Wiz)

3.控制hive map reduce个数的更多相关文章

【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
map和reduce 个数的设定（Hive优化）经典
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
如何在hadoop中控制map的个数
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
如何在hadoop中控制map的个数分类： A1_HADOOP 2015-03-13 20:53 86人阅读评论(0) 收藏
hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数.但是通过这种方式设置map的个数,并不是每次都有效的.原因是mapred.map. ...
Map/Reduce 工作机制分析 --- 作业的执行流程
前言从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情. 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易& ...
Map/Reduce个人实战--生成数据测试集
背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, ...

随机推荐

git乌龟http/https以及ssh clone的秘钥配置永久免密码登录设置
1.安装安装Git 安装TortoiseGit 乌龟客户端首先下载安装一个git客户端这个就不多说了基本就是next一直到底安装后首次新建一个项目project在git服务器上 2.配置 1.注 ...
C语言程序设计I—第九周教学
第九周教学总结(28/10-03/11) 教学内容第三章分支结构 3.3 查询自动售货机中商品的价格课前准备在蓝墨云班课发布资源: PTA:2018秋第九周作业1 3.3 分享码:530571 ...
NYOJ-171 聪明的kk 填表法普通dp
题目链接: http://acm.nyist.edu.cn/JudgeOnline/problem.php?pid=171 聪明的kk 时间限制:1000 ms | 内存限制:65535 KB 难 ...
Android的JNI调用（三）
注册JNI函数注册之意就是将Java层的native函数与JNI层对应的实现函数关联起来,这样在调用Java层的native函数时,就能顺利转到JNI层对应的函数执行. (1)静态注册根据函数名来 ...
CO借贷标识及转换
前台提前数据源0CO_PC_01的数据时发现借贷方有O.C.S.D.不是传统的FI借贷标识(S = 借记,H = 贷记). 由"D"指出贷方记帐.从以下项中发生这些记帐财务会计中 ...
Linux入门基础(一):Linux基本操作
命令行BASH基本操作 Shell 用户不能直接操作内核,所以用户操作通过shell传递给内核 shell分为两种 : GUI 图形界面 (linux一般是GNOME) CLI 命令行界面 (linu ...
Linux下onvif客户端获取h265 IPC摄像头的RTSP地址
1. 设备搜索,去获取webserver 的地址 ,目的是在获取能力提供服务地址,demo:https://www.cnblogs.com/croxd/p/10683429.html 2. GetCa ...
nodejs addon/module
https://github.com/nodejs/node-addon-examples https://github.com/nodejs/node-gyp http://skitr.com/20 ...
2017-2018-2 20155315《网络对抗技术》Exp2：后门原理与实践
实验目的学习建立一个后门连接. 教程实验内容使用netcat获取主机操作Shell,cron启动. 使用socat获取主机操作Shell, 任务计划启动. 使用MSF meterpreter(或 ...
20145207 2016-2017《Java程序设计》课程总结
20145207 2016-2017<Java程序设计>课程总结目录一.每周作业及实验报告链接汇总二.关于博客自认为写得最好一篇博客是?为什么? 作业中阅读量最高的一篇博客是?谈谈 ...

3.控制hive map reduce个数

1.split的计算方式：

2.不同的hive.input.format时map个数

3.reduce个数

3.控制hive map reduce个数的更多相关文章

随机推荐

热门专题