SequenceFileInputFormat区别TextInputFormat


通过InputFormat，Hadoop可以：

l           检查MapReduce输入数据的正确性；

l           将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；

l           提供一个RecordReader实现，Mapper用该实现从InputSplit中读取输入的<K,V>对。


通过FileInputFormat。下面几个参数可以用于配置FileInputFormat：

l           mapred.input.pathFilter.class：输入文件过滤器，通过过滤器的文件才会加入InputFormat；

l           mapred.min.split.size：最小的划分大小；

l           mapred.max.split.size：最大的划分大小；

l           mapred.input.dir：输入路径，用逗号做分割。

java.lang.Object

  org.apache.hadoop.mapreduce.InputFormat<K,V>

      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<K,V>

          org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat<K,V>

java.lang.Object

  org.apache.hadoop.mapreduce.InputFormat<K,V>

      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<LongWritable,Text>

          org.apache.hadoop.mapreduce.lib.input.TextInputFormat

TextInputFormat: 默认的输入格式，行号为Key，文件中该行的内容为value

SequenceFileInputFormat: key-value 对的二进制文件

	通过如下方式进行设置使用：


 	job.setInputFormatClass(SequenceFileInputFormat.class);

   	job.setOutputFormatClass(SequenceFileOutputFormat.class);

SequenceFileInputFormat区别TextInputFormat的更多相关文章

Hadoop集群（第6期）_WordCount运行详解
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...
Hadoop源代码分析
http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdM ...
hadoop1 和haddop2 mapperreducer的wordcount详解
转 mapreduce中wordcount详细介绍(包括hadoop1和hadoop2版本) 发表于1年前(2014-04-24 10:08) 阅读(1458) | 评论(0) 1人收藏此文章, ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
WordCount运行详解
1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然 ...
Hadoop源代码分析(完整版)
Hadoop源代码分析(一) 关键字: 分布式云计算 Google的核心竞争技术是它的计算平台.Google的大牛们用了下面5篇文章,介绍了它们的计算设施. GoogleCluster:http:// ...
[转] hadoop MapReduce实例解析-非常不错，讲解清晰
来源:http://blog.csdn.net/liuxiaochen123/article/details/8786715?utm_source=tuicool 2013-04-11 10:15 4 ...
hadoop高速扫盲帖，从零了解hadoop
1.MapReduce理论简单介绍 1.1 MapReduce编程模型 MapReduce採用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完毕 ...
Hadoop源码分析（mapreduce.lib.partition/reduce/output）
Map的结果,会通过partition分发到Reducer上.Reducer做完Reduce操作后,通过OutputFormat,进行输出.以下我们就来分析參与这个过程的类. Mapper的结果, ...

随机推荐

POJ——1364King（差分约束SPFA判负环+前向星）
King Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 11946 Accepted: 4365 Description ...
SPOJ NSUBSTR Substrings ——后缀自动机
建后缀自动机然后统计次数,只需要算出right集合的大小即可, 然后更新f[l[i]]和rit[i]取个max 然后根据rit集合短的一定包含长的的性质,从后往前更新一遍即可 #include &l ...
java面试题之什么是死锁、活锁、饿死和竞态条件？
死锁:是指两个或两个以上的进程(或线程)在执行过程中,因争夺资源而造成的一种相互等待的现象,若无外力作用,他们将无法推进下去: 活锁:是指两个线程优先级相同,都礼让不走,就这样一直僵持下去: 饿死:在 ...
hdu 4819 Mosaic 树套树模板
The God of sheep decides to pixelate some pictures (i.e., change them into pictures with mosaic). He ...
【ZOJ4053】Couleur（主席树，set，启发式）
题意: 有n个位置,每个位置上的数字是a[i],现在有强制在线的若干个单点删除操作,每次删除的位置都不同,要求每次删除之后求出最大的连续区间逆序对个数 n<=1e5,1<=a[i]< ...
vi 和vim 的区别以及用法
具体用法参考:http://blog.csdn.net/xuesnowce/article/details/53117352 它们都是多模式编辑器,不同的是vim 是vi的升级版本,它不仅兼容vi的所 ...
Java内存区域划分、内存分配原理(深入理解JVM一)
Java虚拟机在执行Java的过程中会把管理的内存划分为若干个不同的数据区域.这些区域有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而存在,而有的区域则依赖线程的启动和结束而创建和销 ...
Python入门--1--基本中的基本
一. 1.这是一个面向对面的编程,一种解释性语言. 2.缩进是python的灵魂,使代码变得非常简洁,正确使用冒号“:”,IDLE的下一行会自动缩进 3.if语句中 python拒绝接受 ...
css3 nth-child 与 nth-of-type 的区别
by zhangxinxu from http://www.zhangxinxu.com本文地址:http://www.zhangxinxu.com/wordpress/?p=1709 一.深呼吸,直 ...
jqeury设置元素屏幕居中
jQuery.fn.center = function () { this.css(“position”,”absolute”); this.css(“top”, ( $(window).height ...

SequenceFileInputFormat区别TextInputFormat

SequenceFileInputFormat区别TextInputFormat的更多相关文章

随机推荐

热门专题