MapReduce的输入输出

mapper和reducer的划分

mapper的数量等于输入文件被划分成的分块数，这取决于输入文件的大小以及文件块的大小。一个map操作只处理一个输入分片。运行作业的客户端通过调用getSplits()计算分片，然后将它们发送到jobtracker，jobtracker使用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。一般默认分片大小就是块的大小，分片的大小由以下公式计算：
max(minimumSize，min(maximumSize，blockSize))
在默认情况下：minimumSize < blockSize < maximumSize
可以通过调整maximumSize和minimumSize来控制分片大小。

reducer的最优个数与集群中可用的reducer任务槽数有关，总槽数由集群中节点数与每个节点的任务槽数相乘得到。一个常用的方法是设置reducer的个数比总槽数稍微少一点，给reducer任务留点余地(容忍一些错误发生而不需要延长作业的运行时间)，如果reduce任务很大，比较明智的做法是使用更多的reducer，使任务粒度更小，从而使任务失败不至于显著影响作业执行时间。

但是map和reduce的数量也不能过多，数量过多虽然可以提高任务并行度，但是太多的map和reduce也会导致整个hadoop框架因为过度的系统资源开销而使任务失败。所以用户在提交map/reduce作业时应该在一个合理的范围内，这样既可以增强系统负载匀衡，也可以降低任务失败的开销。

reduce在运行时往往需要从相关map端复制数据到reduce节点来处理，因此相比于map任务。reduce节点资源是相对比较缺少的，同时相对运行较慢，正确的reduce任务的个数应该是0.95或者1.75 *（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。同时需要注意增加reduce的数量虽然会增加系统的资源开销，但是可以改善负载匀衡，降低任务失败带来的负面影响。

mapreduce的输入输出格式

一个被指定为输入路径的目录，其内容不会被递归处理，事实上，这个目录只包含文件，如果包含子目录，也会被解释为文件，从而产生错误，处理的方法是：使用一个文件glob或一个过滤器根据命名模式限定选择目录下的文件；另一种方法是将mapred.input.dir.recursive设置为true从而强制对输入目录进行递归的读取。
FileInputFormat会使用一个默认的过滤器来排除隐藏文件，如果设置了过滤器，它会在默认过滤器的基础上进行过滤，即自定义过滤器只能看到非隐藏文件。

WholeFileInputFormat

将整个文件读为一条记录

NLineInputFormat

可以设置每个mapper收到的输入行数，一般来说，对少量输入行执行map任务是比较低效的（任务初始化的额外开销造成的）

MultipleInputs

输入多个数据源行格式不同的数据文件，可以指定不同的Mapper处理对应的文件

MultipleOutput

可以根据键值将数据写到多个文件

MapReduce的输入输出的更多相关文章

MapReduce输入输出的处理流程及combiner
MapReduce 的输入输出 MapReduce 框架运转在<key,value> 键值对上,也就是说,框架把作业的输入看成是一组<key,value>键值对,同样也产生一组 ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop阅读笔记（二）——利用MapReduce求平均数和去重
前言:圣诞节来了,我怎么能虚度光阴呢?!依稀记得,那一年,大家互赠贺卡,短短几行字,字字融化在心里:那一年,大家在水果市场,寻找那些最能代表自己心意的苹果香蕉梨,摸着冰冷的水果外皮,内心早已滚烫.这一 ...
【hadoop】——MapReduce解压缩实现
转载请注明出处:http://www.cnblogs.com/zhengrunjian/p/4527269.html 1作为输入当压缩文件做为mapreduce的输入时,mapreduce将自动通过 ...
hadoop-初学者写map-reduce程序中容易出现的问题 3
1.写hadoop的map-reduce程序之前所必须知道的基础知识: 1)hadoop map-reduce的自带的数据类型: Hadoop提供了如下内容的数据类型,这些数据类型都实现了Writab ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
初识MapReduce
MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来说,自己完完全全实现一个并行计算程序难 ...
[转]MapReduce浅析
本文转自http://edisonchou.cnblogs.com/ 一.什么是MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大 ...
大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...

随机推荐

DbInitializer.cs初始化过程中context.entityName.Add()遇到的类型不匹配错误
用Asp.Net Core+EF Core建立一个测试项目过程中,使用DbInitializaer.cs进行数据库表的初始化工作,当项目测试运行时执行到context.实体名.Add()时,提示错误信 ...
SSH项目Class类的注解与属性的注解
经过一段日子对SSH的学习,为了有利于随时能熟练的把一个SSH的项目快速的搭建起来,并且在报错的时候,将报错信息和解决方案记录下来,每天一次的代码练习已成为家常便饭所以,在反复练习的时候,发现Sp ...
解决安装vc2005运行库时提示Command line option syntax error.Type Command/?for Help
安装vc2005运行库时提示这是因为它要自解压到用户的临时文件夹下,如果用户名中带中文,就会报错. 简单的解决方法是,手动解压之,再安装当然,你也可以修改用户名或者再新建个用户.
ABAP之PINYING拼音
前面说了声母韵母,那么现在来说说ABAP里的拼音——域,数据元素,结构 PINGGUO = 苹果 T-CODE : SE11 如下图域:是一些特定值的集合,或者某一种特殊用途的集合.如:需要定义 ...
javascript 技巧
1.将arguments转化为数组函数中的预定义变量arguments并非一个真正的数组,而是一个类似数组的对象. 它具有length属性,但是没有slice, push, sort等函数,那么如何使 ...
MongoDB整库备份与还原以及单个collection备份、恢复方法
mongodb数据库维护离不开必要的备份.恢复操作,而且一般不会出错,所以我们在使用的时候大部分时候使用备份和恢复操作就可以了 mongodump.exe备份的原理是通过一次查询获取当前服务器快照 ...
HDU 1372 Knight Moves
最近在学习广搜这道题同样是一道简单广搜题=0= 题意:(百度复制粘贴0.0) 题意:给出骑士的骑士位置和目标位置,计算骑士要走多少步思路:首先要做这道题必须要理解国际象棋中骑士的走法,国际象棋中 ...
iOS开发UI篇—无限轮播（新闻数据展示）
iOS开发UI篇—无限轮播(新闻数据展示) 一.实现效果二.实现步骤 1.前期准备 (1)导入数据转模型的第三方框架MJExtension (2)向项目中添加保存有“新闻”数据的pli ...
HTML新增属性
1.<input type="text" required必填 placeholder="默认显示内容" autofocus自动获取焦点 /> ...
Apache代理Tomcat实现session共享构建网上商城系统
一.环境介绍二.安装配置后端服务器三.安装配置前端服务器四.配置Tomcat服务器实现session共享五.构建网上商城系统一.环境介绍系统版本:CentOS 6.4_x86_64 Mys ...