MapReduce的输入格式

1. InputFormat接口

　　InputFormat接口包含了两个抽象方法：getSplits()和creatRecordReader()。InputFormat决定了Hadoop如何对文件进行分片和接收，它能够从一个 job 中得到一个 split 集合（InputSplit[]），然后再为这个 split 集合配上一个合适的 RecordReader（getRecordReader）来读取每个split中的数据。InputFormat接口的实现细节如下。

public abstract class Inputformat<K,V> {

    public abstract List<InputSplit> getSplits(JobContext context);

    public abstract RecordReader<K, V>creatRecordReader(InputSplit split, TaskAttemptContext context);

}

2. InputFormat接口实现类层次结构

　　InputFormat接口的实现类有很多，其结构层次如下。

3. FileInputformat输入路径设置

　　FileInputformat为MapReduce中文件输入格式实现类的基类，其作用主要是指定输入文件路径，它提供了四种静态方法来指定输入路径。

　　public static void addInputPath(Job job, Path path);

　　public static void addInputPaths(Job job, String commaSeparatedPaths);

　　public static void setInputPaths(Job job, Path inputPaths);

　　public static void setInputPaths(Job job, String commaSeparatedPaths);

   实例如下，

　　　FileInputFormat.addInputPath(job, newPath("Path1")); //设置一个源路径

　　　FileInputFormat.addInputPaths(job," Path1, Path2,..."); //设置多个源路径，多个源路径之间用逗号分开

　　　FileInputFormat.setInputPaths(job,new Path(“path1”), new Path(“path2”),…); //可以包含多个源路径，

　　　FileInputFormat.setInputPaths(job,”Path1”,” Path2,..."); //设置多个源路径，多个源路径之间用逗号分开

4. FileInputformat子类

　　这里我们介绍几种常用的文件类型的输入格式：TextInputformat，KeyValueTextInputformat，NLineInputformat和SequenceFileInputFormat。

　4.1 TextInputformat

　　TextInputformat是一种文本输入格式，它也是MapReduce默认的输入格式。TextInputformat将每条记录作为一行输入，其键值是LongWritable 类型，存储该行在整个文件中的字节偏移量。值是这行的内容，不包括任何行终止符（换行符合回车符），它们被打包成一个 Text 对象。

以下是一个示例，比如，一个分片包含了如下4条文本记录。

　　 Rich learning form

　　　Intelligent learning engine

　　　Learning more convenient

　　　From the real demand for more close to the enterprise

　　每条记录表示为以下键/值对：

　　 (0,Rich learning form)

　　　(19,Intelligent learning engine)

　　　(47,Learning more convenient)

　　　(72,From the real demand for more close to the enterprise)

　　很明显，键并不是行号。一般情况下，很难取得行号，因为文件按字节而不是按行切分为分片。

　4.1 KeyValueTextInputformat

　　KeyValueTextInputformat为键值对文本输入格式。每一行均为一条记录，被分隔符（缺省是tab（\t））分割为key（Text）,value（Text）。

以下是一个示例，输入是一个包含4条记录的分片。其中——>表示一个（水平方向的）制表符，即tab键。

　　　line1 ——>Rich learning form

　　　line2 ——>Intelligent learning engine

　　　line3 ——>Learning more convenient

　　　line4 ——>From the real demand for more close to the enterprise

　　每条记录表示为以下键/值对：

　　　(line1,Rich learning form)

　　　(line2,Intelligent learning engine)

　　　(line3,Learning more convenient)

　　　(line4,From the real demand for more close to the enterprise)

　　此时的键是每行排在制表符之前的Text序列。

　4.3 NLineInputformat

　　NLineInputformat为多行输入格式。

　　分别使用 TextInputFormat 和 KeyValueTextInputFormat输入格式时，每个 Mapper 收到的输入行数是不同的，其中的行数取决于输入分片的大小和行的长度。如果希望 Mapper 收到固定行数的输入，需要使用 NLineInputFormat 输入格式。与 TextInputFormat 一样，键是文件中行的字节偏移量，值是行本身。N 是每个 Mapper 收到的输入行数。N 设置为1（默认值）时，每个 Mapper 正好收到一行输入。

以下是一个示例，仍然以上面的4行输入为例。

　　　Rich learning form

　　　Intelligent learning engine

　　　Learning more convenient

　　　From the real demand for more close to the enterprise

　　例如，如果 N 是2，则每个输入分片包含两行。一个 mapper 收到前两行键值对：

　　 (0,Rich learning form)

　　　(19,Intelligent learning engine)

　　另一个 mapper 则收到后两行：

　　(47,Learning more convenient)

　　(72,From the real demand for more close to the enterprise)

　这里的键和值与 TextInputFormat 生成的一样。

　4.4 SequenceFileInputFormat

　　SequenceFileInputFormat为序列化的文件输入格式，用于读取sequence file。序列文件为Hadoop专用的压缩二进制文件格式，它专用于一个MapReduce作业和其他MapReduce作业之间的传送数据，使用于多个MapReduce作业之间的链接操作。

5. MultipleInputs（多输入格式处理）

　　虽然一个 MapReduce 作业的输入可能包含多个输入文件，但所有文件都由同一个 InputFormat 和同一个 Mapper 来解释。然而，数据格式往往会随时间演变，所以必须写自己的 Mapper 来处理应用中的遗留数据格式问题。或者，有些数据源会提供相同的数据，但是格式不同。

这些问题可以使用 MultipleInputs 类来妥善处理，它允许为每条输入路径指定 InputFormat 和 Mapper。例如，我们想把英国 Met Office 的气象站数据和美国NCDC 的气象站数据放在一起来统计平均气温，则可以按照下面的方式来设置输入路径。

　 MultipleInputs.addInputPath(job,ncdcInputPath,TextInputFormat.class,NCDCTemperatureMapper.class);

　　MultipleInputs.addInputPath(job,metofficeInputPath,TextInputFormat.class,MetofficeTemperatureMapper.class);

　　这样做目的就是为了，不论有多少个数据源、多少种数据格式，经过Map阶段处理，输出类型一样，Reduce不用关心输入格式。！！！

　　这段代码取代了对 FileInputFormat.addInputPath()和job.setMapperClass() 的常规调用。Met Office 和 NCDC 的数据都是文本文件，所以对两者都使用 TextInputFormat 数据类型。但这两个数据源的行格式不同，所以我们使用了两个不一样的 Mapper，分别为NCDCTemperatureMapper和MetofficeTemperatureMapper。重要的是两个 Mapper 的输出类型一样，因此，reducer 看到的是聚集后的 map 输出，并不知道这些输入是由不同的 Mapper 产生的。

DBInputFormat

DBInputFormat 这种输入格式用于使用 JDBC 从关系数据库中读取数据。因为它没有任何共享能力，所以在访问数据库的时候必须非常小心，在数据库中运行太多的 mapper 读数据可能会使数据库受不了。正是由于这个原因，DBInputFormat 最好用于加载少量的数据集。与之相对应的输出格式是DBOutputFormat，它适用于将作业输出数据（中等规模的数据）转存到数据库。

6. 如何自定义Inputformat

　　有时候 Hadoop 自带的输入格式，并不能完全满足业务的需求，所以需要我们根据实际情况自定义 InputFormat 类。而数据源一般都是文件数据，那么自定义 InputFormat时继承 FileInputFormat 类会更为方便，从而不必考虑如何分片等复杂操作。 自定义输入格式我们分为以下几步：

1）继承 FileInputFormat 基类。

2）重写 FileInputFormat 里面的 isSplitable() 方法。

3）重写 FileInputFormat 里面的 createRecordReader()方法。

　　在一篇博文中有一个实战项目（MapReduce实战：自定义输入格式实现成绩管理），大家可以学习一下。

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！

MapReduce的输入格式的更多相关文章

Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...
mapreduce的输入格式 --- InputFormat
InputFormat 接口决定了mapreduce如何切分输入文件. InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位 ...
Hadoop MapReduce常用输入输出格式
这里介绍MapReduce常用的几种输入输出格式. 三种常用的输入格式:TextInputFormat , SequenceFileInputFormat , KeyValueInputFormat ...
MapReduce类型与格式(输入与输出)
一.输入格式 (1)输入分片记录 ①JobClient通过指定的输入文件的格式来生成数据分片InputSplit: ②一个分片不是数据本身,而是可分片数据的引用: ③InputFormat接口负责生成 ...
MapReduce输入格式
文件是 MapReduce 任务数据的初始存储地.正常情况下,输入文件一般是存储在 HDFS 里面.这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其 ...
MapReduce实战：自定义输入格式实现成绩管理
1. 项目需求我们取有一份学生五门课程的期末考试成绩数据,现在我们希望统计每个学生的总成绩和平均成绩. 样本数据如下所示,每行数据的数据格式为:学号.姓名.语文成绩.数学成绩.英语成绩.物理成绩.化 ...
Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式（十一）
推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapredu ...
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中. 默认的partitioner是HashPartitin ...
输入格式--InputFormat和InputSplit
1)InputFormat的类图: InputFormat 直接子类有三个:DBInputFormat.DelegatingInputFormat和FileInputFormat,分别表示输入文件的来 ...

随机推荐

Spring 学习十五 AOP
http://www.hongyanliren.com/2014m12/22797.html 1: 通知(advice): 就是你想要的功能,也就是安全.事物.日子等.先定义好,在想用的地方用一下.包 ...
MAXOS安装FFMPEG
安装brew 安装方法:命令行输入 /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ins ...
nmap 快速扫描所有端口
nmap -sT -sV -Pn -v xxx.xxx.xxx.xxx nmap -sS -p 1-65535 -v 192.168.1.254参数:-sS TCP SYN扫描 nmap ...
ipcs、ipcrm命令
进程间通信概述进程间通信有如下的目的:1.数据传输,一个进程需要将它的数据发送给另一个进程,发送的数据量在一个字节到几M之间:2.共享数据,多个进程想要操作共享数据,一个进程对数据的修改,其他进程应该 ...
BZOJ4085: [Sdoi2015]音质检测
BZOJ4085: [Sdoi2015]音质检测由于这题太毒了,导致可能会被某些人卡评测,于是成了一道权限题... 本蒟蒻表示没钱氪金... 但是可以去洛谷/Vijos搞搞事... 但是洛谷上只能评 ...
[转] Hibernate不能自动建表解决办法(hibernate.hbm2ddl.auto) (tables doesn't exist)
转自: http://blog.csdn.net/biangren/article/details/8010018 最近开始学Hibernate,看的是李刚的那本<轻量级java ee企业应用实 ...
哪个U盘启动工具能安装红帽系统，
安装红帽子,不要使用windows系统下的PE启动盘,两者引导方式不一样,不通用的.正确的方法是网上下载红帽子的ISO镜像文件后,用UltraISO这个工具写入优盘或者光盘,得到的系统盘才可以启动电脑 ...
javascript 数组中出现的次数最多的元素
javascript 数组中出现的次数最多的元素 var arr = [1,-1,2,4,5,5,6,7,5,8,6]; var maxVal = arr[0]; // 数组中的最大值 var min ...
利用css实现鼠标经过元素，下划线由中间向两边展开
代码如下: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
Jquery的parent和parents(找到某一特定的祖先元素)用法
<!-- parent是指取得一个包含着所有匹配元素的唯一父元素的元素集合. parents则是取得一个包含着所有匹配元素的祖先元素的元素集合(不包含根元素).可以通过一个可选的表达式进行筛选. ...

MapReduce的输入格式

MapReduce的输入格式的更多相关文章

随机推荐

热门专题