Hadoop FileInputFormat实现原理及源码分析

FileInputFormat（org.apache.hadoop.mapreduce.lib.input.FileInputFormat）是专门针对文件类型的数据源而设计的，也是一个抽象类，它提供两方面的作用：

（1）定义Job输入文件的静态方法；

（2）为输入文件形成切片的通用实现；

至于如何将切片中的数据转换为一条条的“记录”则根据文件类型的不同交由具体的子类负责实现。

FileInputFormat input paths

FileInputFormat提供了四个静态方法用于定义Job的输入文件路径：

public static void addInputPath(Job job, Path path)

public static void addInputPaths(Job job, String commaSeparatedPaths)

public static void setInputPaths(Job job, Path... inputPaths)

public static void setInputPaths(Job job, String commaSeparatedPaths)

addInputPath()、addInputPaths()用于“添加”一个（批）输入路径，可以重复被调用，源码如下：

addInputPath的每一次调用都会将输入路径（Path会被转换为字符串形式）与原有值以“,”分隔进行拼接（并不会覆盖原有值），并保存至Job Configuration的属性INPUT_DIR（mapreduce.input.fileinputformat.inputdir）中。

而addInputPaths实际是对addInputPath的循环调用。

setInputPaths()实际是两个重载方法，用于“设置”一个（批）输入路径，该方法用于一次性调用，每一次调用都会覆盖之前的结果，源码如下：

该方法的最后会替换Job Configuration属性INPUT_DIR（mapreduce.input.fileinputformat.inputdir）的原有值。

这里所说的输入路径可以代表一个文件，也可以代表一个目录（该目录下的所有文件将全部作为输入数据），而且可以在输入路径中使用通配符或者使用“,”进行多个输入路径的拼接。

注意：目录中的内容（子目录）不会被递归处理。实际上目录中应仅包含文件，如果目录中包含子目录，这些子目录会被当作文件处理，从而引发异常。如果我们不需要递归目录，我们可以通过File Pattern或者Filter（见后）告知FileInputFormat仅仅选取指定目录中的文件；如果我们确实需要递归处理目录，则可以通过设置mapreduce.input.fileinputformat.input.dir.recursive为true实现。

有些时候我们还需要“过滤”输入路径中的一些文件，这可以通过方法setInputPathFilter()为FileInputFormat设置相应的过滤器实现，源码如下：

实际就是指定一个PathFilter（PathFilter的相关内容不再讨论范围）的具体实现类名称，保存于Job Configuration属性PATHFILTER_CLASS（mapreduce.input.pathFilter.class）中。

如果我们没有显示设置PathFilter，FileInputFormat会有一个默认的过滤器，用于过滤目录中的隐藏文件；如果我们显示设置PathFilter，则FileInputFormat的过滤器实则是一个过滤器链，而默认的过滤器会居于过滤器链的首部，优先被执行。

综上所述，FileInputFormat的输入路径和过滤器实际可以直接通过相应的属性值进行设置，如下图所求：

FileInputFormat input splits

FileInputFormat生成切片的过程是由getSplits()方法实现的，核心逻辑及相关源码如下：

1. 确定切片大小的最小值与最大值；

最小值：getFormatMinSplitSize()与getMinSplitSize()两者之间的较大值。getFormatMinSplitSize()是FileInputFormat中的一个实例方法，默认返回值为1，即1字节；getMinSplitSize()返回值由属性mapreduce.input.fileinputformat.split.minsize决定，默认值为1，即1字节。如果没有特殊需要，最小值即为1字节。有些数据格式的文件对切片的最小大小是有要求的，如SequenceFile（具体可参考SequenceFile相关文档），这时就需要在FileInputFormat子类中重写getFormatMinSplitSize()方法来满足特定需求。

最大值：getMaxSplitSize()返回值由属性mapreduce.input.fileinputformat.split.maxsize决定，默认值为Long.MAX_VALUE。

2. 获取输入路径中的所有文件信息；

3. 迭代处理输入路径中的每一个文件，为每一个文件生成切片；

对于每一个文件而言，生成切片的过程大致可以概括为以下5个关键步骤：

获取文件的路径及长度（1）；

如果文件长度为0，则生成一个“空”的切片（5）；如果文件长度不为0，则获取文件的数据块信息（2）；

如果文件格式不可切片，则将整个文件生成一个切片（4）；如果文件格式可切片，则为该文件生成切片（3）。

其中文件格式是否支持切片，由FileInputFormat isSplitable()方法决定，默认返回值为true，即默认可切片。可以根据实际应用场景的不同，在FileInputFormat的子类中重写该方法，使返回值为false，达到禁止切片的功效，这样每一个Map Task会处理一个文件的全部数据。

在详细介绍第3步之前，需要先引入一个新的类FileSplit，它表示一个文件切片，包含的变量如下：

file：切片所引用的文件路径（名称）；

start：切片在文件中的起始偏移量；

length：切片大小;

hosts：由切片在文件中的起始偏移量、切片大小、文件数据块信息可以计算出切片所引用的数据块有哪些（切片大小可能大于HDFS的数据块大小），hosts中保存着这些数据块中的第一个数据块的副本位置（主机名），默认为3个主机名，MapReduce根据此值完成Map Task的调度；

hostInfos：相对于hosts中保存着的主机名，还保存着副本是否位于主机内存的信息。

下面介绍一个（可切片）文件切片的形成过程，大体也可以分为5个步骤：

step1

首先获取文件的数据块大小blockSize（这里也可以看出不同的文件，数据块大小也是可以不同的）；

然后根据数据块大小（blockSize）、切片最小值（minSize）、切片最大值（maxSize）计算文件对应的切片大小（splitSize），计算公式如下：

splitSize = max(minimumSize, min(maximumSize, blockSize))

step2

判断文件的剩余大小（未切片的大小）是否满足继续进行切片的条件：((double) bytesRemaining)/splitSize > SPLIT_SLOP为true，其中bytesRemaining初始值为文件长度length，SPLIT_SLOP值为1.1，且不可修改，即文件剩余大小需为切片大小（splitSize）的1.1倍才会继续切片。

step3

获取切片对应的数据块。一个切片根据切片大小的不同，可能会包含若干个数据块，这里将第一个数据块的副本位置作为切片的存储位置。

切片在文件中的起始偏移量的计算公式：

offset = （n - 1）* splitSize，n表示第几个切片

对于给定的切片的offset，getBlockIndex实际就是计算文件的哪个数据块的起止范围恰好包含offset，返回这个数据块在数据块列表（blkLocations）的下标，计算流程如下：

step4

根据下标对应的数据块信息构建一个FileSplit。根据FileSplit的信息，可以看出FileSplit并不实现保存数据，仅仅是通过文件名称、起始偏移量、大小关联数据，并将对应数据块的副本位置作为切片的存储位置进行Map Task的调度。

循环执行step2、step3、step4直到文件剩余大小无法满足切片条件。

step5

将文件的剩余部分构建一个FileSplit。

Hadoop FileInputFormat实现原理及源码分析的更多相关文章

Hadoop CombineFileInputFormat实现原理及源码分析
Hadoop适用于少量的大文件场景,而不是大量的小文件场景(这里的小文件通常指文件大小显著小于HDFS Block Size的文件),其主要原因是因为FileInputFormat在为这些小文件生成切 ...
OpenCV学习笔记（27）KAZE 算法原理与源码分析（一）非线性扩散滤波
http://blog.csdn.net/chenyusiyuan/article/details/8710462 OpenCV学习笔记(27)KAZE 算法原理与源码分析(一)非线性扩散滤波 201 ...
ConcurrentHashMap实现原理及源码分析
ConcurrentHashMap实现原理 ConcurrentHashMap源码分析总结 ConcurrentHashMap是Java并发包中提供的一个线程安全且高效的HashMap实现(若对Ha ...
HashMap和ConcurrentHashMap实现原理及源码分析
HashMap实现原理及源码分析哈希表(hash table)也叫散列表,是一种非常重要的数据结构,应用场景及其丰富,许多缓存技术(比如memcached)的核心其实就是在内存中维护一张大的哈希表, ...
（转）ReentrantLock实现原理及源码分析
背景:ReetrantLock底层是基于AQS实现的(CAS+CHL),有公平和非公平两种区别. 这种底层机制,很有必要通过跟踪源码来进行分析. 参考 ReentrantLock实现原理及源码分析源 ...
【转】HashMap实现原理及源码分析
哈希表(hash table)也叫散列表,是一种非常重要的数据结构,应用场景极其丰富,许多缓存技术(比如memcached)的核心其实就是在内存中维护一张大的哈希表,而HashMap的实现原理也常常出 ...
【OpenCV】SIFT原理与源码分析：DoG尺度空间构造
原文地址:http://blog.csdn.net/xiaowei_cqu/article/details/8067881 尺度空间理论自然界中的物体随着观测尺度不同有不同的表现形态.例如我们形 ...
《深入探索Netty原理及源码分析》文集小结
<深入探索Netty原理及源码分析>文集小结 https://www.jianshu.com/p/239a196152de
HashMap实现原理及源码分析之JDK8
继续上回HashMap的学习 HashMap实现原理及源码分析之JDK7 转载 Java8源码-HashMap 基于JDK8的HashMap源码解析 [jdk1.8]HashMap源码分析一.H ...

随机推荐

Eclipse连接SVN服务器
(1)安装 eclipse SVN 插件插件名称 site-1.4.8.zip Help --> SoftwareUpdates --->Find and Insta ...
Spring中的AOP
什么是AOP? (以下内容来自百度百科) 面向切面编程(也叫面向方面编程):Aspect Oriented Programming(AOP),通过预编译方式和运行期动态代理实现程序功能的统一维护的一种 ...
Manacher算法求回文半径
http://wenku.baidu.com/link?url=WFI8QEEfzxng9jGCmWHoKn0JBuHNfhZ-tKTDMux34CeY8UNUwLVPeY5HA3TyoKU2XegX ...
markdown 简明语法
今天同事聊到markdown用法之前不怎么了解先把网上的建明语法贴出来以备后用. 基本符号 *,-,+ 3个符号效果都一样,这3个符号被称为 Markdown符号空白行表示另起一个段落 `是 ...
JS 点击事件失效
有时候,会发现js失效 ,代码如果是如下的时候 <input type="button" onclick="change()"value="変更 ...
DHCP服务器
DHCP指的是由服务器控制一段IP地址范围,客户机登录服务器时就可以自动获得服务器分配的IP地址和子网掩码.首先,DHCP服务器必须是一台安装有Windows 2000 Server/Advanced ...
黑马程序员-hashtable
散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构.也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度.这个映射函数叫做散列 ...
[置顶] VS自带工具：dumpbin的使用
有时候我们想查看一个exe引用了哪些动态库,或者我们想看某个动态库包含哪些接口函数,这个时候可以使用dumpbin.exe工具: 1.输入Dumpbin -imports calldll.exe查看它 ...
SQL SERVER 2012疑难问题解决方法
问题一: 问题描述 SQL SERVER 2012 尝试读取或写入受保护的内存.这通常指示其他内存已损坏. (System.Data) 解决办法管理员身份运行 cmd -> 输入 netsh ...
MySQL被Oracle并购后的409个日日夜夜
2009年4月20日,Oracle并购了Sun,这也意味着MySQL归属到甲骨文的旗下.四百多天过去了,究竟这场并购结局如何?请看本文. 去年对Sun的收购,让甲骨文顺利的将一个潜在的对手MySQL收 ...

Hadoop FileInputFormat实现原理及源码分析

Hadoop FileInputFormat实现原理及源码分析的更多相关文章

随机推荐

热门专题