Hadoop MapReduce InputFormat基础

有时候你可能想要用不同的方法从input data中读取数据。那么你就需要创建一个自己的InputFormat类。

InputFormat是一个只有两个函数的接口。
 public interface InputFormat<K, V> {

     InputSplit[]   getSplits(JobConf job, int numSplits) throws IOException;

     RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter) throws IOException;

 }

getSplits()：标记所有的输入数据，然后将他们切分为小的输入数据块，每个Map任务处理一个数据块；

getRecordReader()：提供一个RecordReader来从给定的数据块中迭代处理数据，然后将数据处理为<key,value>格式。

由于没有人愿意关心怎样将数据块分为小的数据块，你应该继承FileInputFormat类，它用来处理数据的分块。

大部分已知的InputFormat就是FileInputFormat的子类。

InputFormat	Description
TextInputFormat	输入文件中的每一行就是一个记录，Key是这一行的byte offset，而value是这一行的内容。 Key: LongWritable Value: Text
KeyValueTextInputFormat	输入文件中每一行就是一个记录，第一个分隔符字符切分每行。在分隔符字符之前的内容为Key，在之后的为Value。分隔符变量通过key.value.separator.in.input.line变量设置，默认为(\t)字符。 Key: Text Value: Text
SequenceFileInputFormat<K,V>	一个用来读取字符流数据的InputFormat，<Key,Value>为用户自定义的。字符流数据是Hadoop自定义的压缩的二进制数据格式。它用来优化从一个MapReduce任务的输出到另一个MapReduce任务的输入之间的数据传输过程。 Key: K(用户自定义) Value: V(用户自定义)
NLineInputFormat	与TextInputFormat一样，但每个数据块必须保证有且只有Ｎ行，mapred.line.input.format.linespermap属性，默认为１，设置为Ｎ。 Key: LongWritable value: Text

FileInputFormat实现getSplits()方法，但是仍然保留getRecordReader()方法为abstract以使其子类实现。

FileInputFormat的getSplits()实现试着将输入数据分块大小限制在numSplits值之上，numSplits<数据块<hdfs block size

FileInputFormat有一些子类可以重载的protected函数，例如isSplitable()，它用来确定你是否可以切分一个块，默认返回为true，表示只要数据块大于hdfs block size，那么它将会被切分。但有时候你不希望切分一个文件，例如某些二进制序列文件不能被切分时，你就需要重载该函数使其返回false。

在用FileInputFormat时，你主要的精力应该集中在数据块分解为记录，并且生成<key,value>键值对的RecordReader方法上。
 public interface RecordReader<K, V> {

 　　boolean next(K key, V value) throws IOException;

 　　K createKey();

 　　V createValue();

 　　long getPos() throws IOException;

 　　public void close() throws IOException;

 　　float getProgress() throws IOException;

 }

Hadoop MapReduce InputFormat基础的更多相关文章

Hadoop MapReduce InputFormat/OutputFormat
InputFormat import java.io.IOException; import java.util.List; /** * InputFormat describes the input ...
[Hadoop] - 自定义Mapreduce InputFormat&OutputFormat
在MR程序的开发过程中,经常会遇到输入数据不是HDFS或者数据输出目的地不是HDFS的,MapReduce的设计已经考虑到这种情况,它为我们提供了两个组建,只需要我们自定义适合的InputFormat ...
从分治算法到 Hadoop MapReduce
从分治算法说起要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再 ...
Hadoop MapReduce编程 API入门系列之网页流量版本1（二十二）
不多说,直接上代码. 对流量原始日志进行流量统计,将不同省份的用户统计结果输出到不同文件. 代码 package zhouls.bigdata.myMapReduce.flowsum; import ...
hadoop mapreduce 基础实例一记词
mapreduce实现一个简单的单词计数的功能. 一,准备工作:eclipse 安装hadoop 插件: 下载相关版本的hadoop-eclipse-plugin-2.2.0.jar到eclipse/ ...
Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
MapReduce编程基础
MapReduce编程基础 1. WordCount示例及MapReduce程序框架 2. MapReduce程序执行流程 3. 深入学习MapReduce编程(1) 4. 参考资料及代码下载 & ...
Hadoop MapReduce 一文详解MapReduce及工作机制
@ 目录前言-MR概述 1.Hadoop MapReduce设计思想及优缺点设计思想优点: 缺点: 2. Hadoop MapReduce核心思想 3.MapReduce工作机制剖析MapRe ...

随机推荐

1.2 Activity
Activity是个应用组件,它给用户提供了为了完成某些工作而可以进行交互操作的界面,例如,电话详情,打电话,发邮件,或是浏览地图.每一个Activity都有一个窗口来绘制自已的用户界面.通常来说, ...
谈谈哥的python爬虫书写之路
为了做一个百度网盘搜索引擎,哥开始研究爬虫,从此迷上爬虫而一发不可收拾,现在就大概谈谈哥的爬虫之路,顺便给出引擎:http://www.quzhuanpan.com 首先基本的 Python 语法你要 ...
python 的__FILE__,__LINE__功能实现
在C语言里,__FILE__和__LINE__给调试提供了很大的方便,今晚在写PYTHON的时候想到,PYTHON是否有类似的功能实现呢? GOOGLE一番发现两个方法,试验一下下面这句:print ...
ashx一般处理程序
说明: 虽然通过标准的方式可以创建处理程序,但是实现的步骤比较复杂,为了方便网站开发中对处理程序的应用,从Asp.net 2.0开始,asp.net提供了称为一般处理程序的处理程序,允许我们使用 ...
（随用随总结）Linux下面的特殊权限&不同的文件类型
一.Linux的文件信息 linux文件被保存在文件系统下,由以下属性组成: ls -l 之后看到的信息从左到右可以看到文件的以下属性各种类型访问权限链接数(跟 inode相关,ln 硬链 ...
蓝桥杯第三届C/C++预赛真题（9）夺冠概率（手工计算概率）
足球比赛具有一定程度的偶然性,弱队也有战胜强队的可能. 假设有甲.乙.丙.丁四个球队.根据他们过去比赛的成绩,得出每个队与另一个队对阵时取胜的概率表: 甲乙丙丁甲 - 0.1 0.3 0.5乙 ...
Python_selenium之窗口切换（二）
Python_selenium之窗口切换(二)一.思路拆分1. 之前有介绍窗口切换,这里加上断言部分2. 这里还是以百度新闻为例,获取百度新闻网址http://news.baidu.com/3. 同样 ...
mysql 暴力破解 root账号密码
测试数据库的root账号密码大家都忘记了,好吧,那我们就暴力破解吧 1.找到my.cnf vi /etc/my.cnf在[mysqld]的段中加上一句:skip-grant-tables例如:[mys ...
Linux下文件属性（drwxr-xr-x）详解以及（-rwxrwxrwx=777）（转）
权限的计算是除去第一位字母开始,权限都是三个符号为一组合,其中-表没有这个权限. drwxr-xr-x的意思解释: ls -al 得到如下列表: drwxr-xr-x 4 oracle dba 409 ...
delphi 快捷键的使用
CTRL+SPACE 代码补全,很好用的(先改了输入法热键)CTRL+SHIFT+C 编写申明或者补上函数CTRL+SHIFT+↑(↓) 在过程.函数.事件内部, 可跳跃到相应的过程.函数.事件的定义 ...

Hadoop MapReduce InputFormat基础

Hadoop MapReduce InputFormat基础的更多相关文章

随机推荐

热门专题