MapReduce源码分析之InputFormat

InputFormat描述了一个Map-Reduce作业中的输入规范。Map-Reduce框架依靠作业的InputFormat实现以下内容：

1、校验作业的输入规范；

2、分割输入文件（可能为多个），生成逻辑输入分片InputSplit（往往为多个），每个输入分片InputSplit接着被分配给单独的Mapper；

3、提供记录读取器RecordReader的实现，RecordReader被用于从逻辑输入分片InputSplit收集输入记录，这些输入记录会被交由Mapper处理。

基于文件的输入格式的默认行为，作为代表性的子类FileInputFormat，基于输入文件的总大小（单位byte）来切分成逻辑输入分片InputSplit。然而，输入文件的文件系统数据块大小，被用作输入分片大小的上界。输入分片大小的下界则可以在mapred-default.xml配置文件中通过参数mapreduce.input.fileinputformat.split.minsize来配置。

无疑，由于记录界限应该被遵守，基于输入大小的逻辑输入分片不满足很多应用。在这种情况下，应用不得不实现一个记录阅读器RecordReader，以便遵守记录边界，并提出一个面向记录的逻辑输入分片视图给单个任务。

InputFormat是一个抽象类，其中，实现分片的是getSplits()方法，其定义如下：

public abstract
List<InputSplit> getSplits(JobContext context
) throws IOException, InterruptedException;

getSplits()方法为作业在逻辑上切分输入文件集合。每个输入分片将会被分配给单个Mapper进行处理。注意，这个切分只是对输入进行逻辑上的切分，输入文件并不会在物理上被分割成块。比如，一个分片可能是<输入文件路径，起始位置，长度>元组。InputFormat也会创建记录阅读器RecordReader去读取这个输入分片InputSplit。

而提供记录阅读器的是createRecordReader()方法，其定义如下：

public abstract
RecordReader<K,V> createRecordReader(InputSplit split,
TaskAttemptContext context
) throws IOException,
InterruptedException;

createRecordReader()方法为给定分片创建一个记录阅读器。在分片被使用之前，框架将调用RecordReader的initialize(InputSplit, TaskAttemptContext)方法完成初始化。它需要两个参数：

1、InputSplit split：需要被读入的分片；

2、TaskAttemptContext context：任务上下文，存储了任务的相关信息。

MapReduce源码分析之InputFormat的更多相关文章

MapReduce源码分析之JobSubmitter（一）
JobSubmitter,顾名思义,它是MapReduce中作业提交者,而实际上JobSubmitter除了构造方法外,对外提供的唯一一个非private成员变量或方法就是submitJobInter ...
MapReduce源码分析之新API作业提交（二）：连接集群
MapReduce作业提交时连接集群是通过Job的connect()方法实现的,它实际上是构造集群Cluster实例cluster,代码如下: private synchronized void co ...
MapReduce源码分析之LocatedFileStatusFetcher
LocatedFileStatusFetcher是MapReduce中一个针对给定输入路径数组,使用配置的线程数目来获取数据块位置的实用类.它的主要作用就是利用多线程技术,每个线程对应一个任务,每个任 ...
mapreduce源码分析总结
一 MapReduce概述 Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了.其中对 ...
MapReduce源码分析之作业Job状态机解析（一）简介与正常流程浅析
作业Job状态机维护了MapReduce作业的整个生命周期,即从提交到运行结束的整个过程.Job状态机被封装在JobImpl中,其主要包括14种状态和19种导致状态发生的事件. 作业Job的全部状态维 ...
MapReduce源码分析之JobSplitWriter
JobSplitWriter被作业客户端用于写分片相关文件,包括分片数据文件job.split和分片元数据信息文件job.splitmetainfo.它有两个静态成员变量,如下: // 分片版本,当前 ...
MapReduce源码分析之Task中关于对应TaskAttempt存储Map方案的一些思考
我们知道,MapReduce有三层调度模型,即Job——>Task——>TaskAttempt,并且: 1.通常一个Job存在多个Task,这些Task总共有Map Task和Redcue ...
4 weekend110的textinputformat对切片规划的源码分析 + 倒排索引的mr实现 + 多个job在同一个main方法中提交
好的,现在,来weekend110的textinputformat对切片规划的源码分析, Inputformat默认是textinputformat,一通百通. 这就是今天,weekend110的te ...
Hadoop2源码分析－MapReduce篇
1.概述前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapred ...

随机推荐

洛谷——P2368 EXCEEDED WARNING B
P2368 EXCEEDED WARNING B 题目背景 SGU 107 题目描述求有多少个平方后末尾为987654321的n位数输入输出格式输入格式: 整数n 输出格式: 答案,即[b]“平 ...
haproxy代理kibana、nginx代理kibana并实现登录验证
在使用ELK进行日志统计的时候,由于Kibana自身并没有身份验证的功能,任何人只要知道链接地址就可以正常登录到Kibana控制界面,由于日常的查询,添加和删除日志都是在同一个web中进行,这样就有极 ...
八. 输入输出(IO)操作6.文件与目录管理
目录是管理文件的特殊机制,同类文件保存在同一个目录下不仅可以简化文件管理,而且还可以提高工作效率.Java 语言在 java.io 包中定义了一个 File 类专门用来管理磁盘文件和目录. 每个 Fi ...
java随机生成汉字
public static void main(String[] args) { String str = null; int hs, ls; Random random = new Random() ...
JAVA之方法的重载
package com.test; //方法重载(overload)定义://1.方法名称相同//2.方法的参数类型.个数.顺序至少有一项不同//3.方法的返回类型可以不同//4.方法的修饰符可以不同 ...
ASP.NET MVC学习---（九）权限过滤机制（完结篇）
相信对权限过滤大家伙都不陌生用户要访问一个页面时先对其权限进行判断并进行相应的处理动作在webform中最直接也是最原始的办法就是在page_load事件中所有代码之前先执行一个权限判断的 ...
bind域名dns解析及主从服务的配置
bind域名dns解析及主从服务的配置 1.dns解析介绍人们习惯记忆域名,但机器间互相只认IP地址,域名与IP地址之间是多对一的关系,一个ip地址不一定只对应一个域名,且一个域名只可以对应 ...
ssh免密码登录之分发密钥
ssh免密码登录之分发密钥 1.ssh免密码登录密码登录和密钥登录有什么不同? 密码登录(口令登录),每次登录都需要发送密码(ssh) 密钥登录,分为公钥和私钥,公钥相当于锁,私钥相当于钥匙 1.1 ...
纯css 实现三角形、梯形等效果
今天一个刚开始学习html 的小白问我一个问题,css 可以实现正方形,长方形,和圆型(border-radius),怎么能做出个三角形.梯形等等形状呢?于是我便开启了装逼模式, 给他讲解了一下我的思 ...
固态硬盘（Solid State Drives）
固态硬盘(Solid State Drives) 学习了:https://baike.baidu.com/item/%E5%9B%BA%E6%80%81%E7%A1%AC%E7%9B%98/45351 ...

MapReduce源码分析之InputFormat

MapReduce源码分析之InputFormat的更多相关文章

随机推荐

热门专题