hadoop输入格式(InputFormat)

　　InputFormat接口(package org.apache.hadoop.mapreduce包中)里包括两个方法：getSplits()和createRecordReader()，这两个方法分别用来定义输入分片和读取分片的方法。

 public abstract class InputFormat<K, V> {

   public abstract

     List<InputSplit> getSplits(JobContext context

                                ) throws IOException, InterruptedException;

   public abstract

     RecordReader<K,V> createRecordReader(InputSplit split,

                                          TaskAttemptContext context

                                         ) throws IOException,

                                                  InterruptedException;

 }

　　getSplits()负责将文件切分成多个分片(InputSplit)，但InputSplit并没有实际切分文件，而只是说明了如何切分数据，也就是说，InputSplit只是逻辑上的切分。createRecordReader()则创建了RecordReader，用来从InputSplit读取记录。

　　再看InputSplit类，它包括了getLength()和getLocation()两个方法。getLength()方法用来获取InputSplit的大小，getLocation()则用来获取InputSplit的位置。

 public abstract class InputSplit {

   public abstract long getLength() throws IOException, InterruptedException;

   public abstract

     String[] getLocations() throws IOException, InterruptedException;

 }

　　每个InputSplit对应一个map任务。作为map的输入，在逻辑上提供了这个map任务所要处理的key-value对。

　　InputSplit只是定义了如何切分文件，但并没有定义如何访问它，这个工作由RecordReader来完成。RecordReader的实例是由InputFormat定义的。例如，在InputFormat的默认子类TextInputFormat中，提供了LineRecordReader。

 package org.apache.hadoop.mapreduce.lib.input;

 public class TextInputFormat extends FileInputFormat<LongWritable, Text> {

   @Override

   public RecordReader<LongWritable, Text>

     createRecordReader(InputSplit split,

                        TaskAttemptContext context) {

     return new LineRecordReader();

   }

　　LineRecordReader会把文件的每一行作为一个单独的记录，并以行偏移为键值。这也就解释了WordCount例子中，行偏移为key值，每一行的内容作为value的原因。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：《Hadoop应用开发技术详解》刘刚

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/3997734.html

hadoop输入格式(InputFormat)的更多相关文章

输入格式--InputFormat和InputSplit
1)InputFormat的类图: InputFormat 直接子类有三个:DBInputFormat.DelegatingInputFormat和FileInputFormat,分别表示输入文件的来 ...
mapreduce的输入格式 --- InputFormat
InputFormat 接口决定了mapreduce如何切分输入文件. InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位 ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...
Hadoop MapReduce编程 API入门系列之自定义多种输入格式数据类型和排序多种输出格式（十一）
推荐 MapReduce分析明星微博数据 http://git.oschina.net/ljc520313/codeexample/tree/master/bigdata/hadoop/mapredu ...
MapReduce输入格式
文件是 MapReduce 任务数据的初始存储地.正常情况下,输入文件一般是存储在 HDFS 里面.这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其 ...
Hadoop中的InputFormat解析
1.InputFormat InputFormat是Hadoop平台上Mapreduce输入的规范,仅有两个抽象方法. List<InputSplit> getSplits(), 获取由输 ...
hadoopMR自定义输入格式
输入格式 1.输入分片与记录 2.文件输入 3.文本输入 4.二进制输入 5.多文件输入 6.数据库格式输入详细的介绍:https://blog.csdn.net/py_123456/ar ...
解读：hadoop压缩格式
Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2.它们的优缺点和应用场景如下: 1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身 ...
MapReduce实战：自定义输入格式实现成绩管理
1. 项目需求我们取有一份学生五门课程的期末考试成绩数据,现在我们希望统计每个学生的总成绩和平均成绩. 样本数据如下所示,每行数据的数据格式为:学号.姓名.语文成绩.数学成绩.英语成绩.物理成绩.化 ...

随机推荐

如何通过CRM评估客户价值和提高客户忠诚度?
随着市场经济的日益繁荣,同行业之间企业的竞争越来越激烈,企业纷纷各出奇招吸引和挖掘客户,力求让自己的品牌成为更多客户的第一选择.那么,我们可以用什么方法来评估客户价值,提高客户忠诚度呢? 在互联网时代 ...
[课程设计]Scrum 2.4 多鱼点餐系统开发进度(下单一览页面修复)
Scrum 2.4 多鱼点餐系统开发进度 (下单一览页面修复) 1.团队名称:重案组 2.团队目标:长期经营,积累客户充分准备,伺机而行 3.团队口号:矢志不渝,追求完美 4.团队选题:餐厅到店点餐 ...
c++11中的for简化用法
1.序列for循环 map<string,int> m{{"a",1},{"b",2},{"c",3}} for(auto p: ...
WebForm水印照片
水印照片需要的元素绘制:1.画布2.画笔样式粗细颜色3.画什么东西4.用什么字体画大小5.位置展示页面 <%@ Page Language="C#" AutoEv ...
升级PHP
wget http://down.wdlinux.cn/in/php_up53.shsh php_up53.sh
通过Mac远程调试iPhone/iPad上的网页(转)
我们知道在 Mac/PC 上的浏览器都有 Web 检查器这类的工具(如最著名的 Firebug)对前端开发进行调试,而在 iPhone/iPad 由于限于屏幕的大小和触摸屏的使用习惯,直接对网页调试非 ...
VBA中使用JavaScript脚本语言解析JSON数据
JSON:JavaScript 对象表示法(JavaScript Object Notation) 和xml相似,都是文本形式(保存在文本文件中或字符串等形式),比如: jsstr = {" ...
通过配置的方式Autofac 《第三篇》
一.基本配置 1.通过配置的方式使用Autofac <?xml version="1.0"?> <configuration> <configSect ...
Linux高级权限管理 - ACL
传统权限模型缺点: 传统的UGO权限模型无法应对负责的权限设置要求,如对于一个文件只能设置一个组,并且对该组进行权限控制,但是如果该文件有多个组合会对其进行访问,并且都要要求权限限制时,传统的UGO模 ...
socket初级使用(客户端)
在国庆这段时间里用零星的一些时间看了一下socket的学习资料,由于笔者偏向学习实用方面的内容,因此此篇文章涉及理论知识较少,主要是以实现思路(怎么做)为主,但在实现之前还是需要了解一些基础的理论知识 ...

hadoop输入格式(InputFormat)

hadoop输入格式(InputFormat)的更多相关文章

随机推荐

热门专题