MapReduce之自定义InputFormat

在企业开发中，Hadoop框架自带的InputFormat类型不能满足所有应用场景，需要自定义InputFormat来解决实际问题。

自定义InputFormat步骤如下：

（1）自定义一个类继承FilelnputFormat。
（2）自定义一个类继承RecordReader，实现一次读取一个完整文件，将文件名为key，文件内容为value。
（3）在输出时使用SequenceFileOutPutFormat输出合并文件。

无论HDFS还是MapReduce，在处理小文件时效率都非常低，但又难免面临处理大量小文件的场景，此时，就需要有相应解决方案。可以自定义InputFormat实现小文件的合并。

1. 需求

将多个小文件合并成一个SequenceFile文件（SequenceFile文件是Hadoop用来存储二进制形式的key-value(bytes) 对的文件格式），SequenceFile里面存储着多个文件，存储的形式为文件路径+名称为key，文件内容为value。

（1）输入数据

（2）期望输出文件格式

2. 需求分析

自定义一个类继承FileInputFormat

（1）重写isSplitable()方法，返回false，让文件不可切，整个文件作为1片。

（2）重写createRecordReader()，返回自定义的RecordReader对象
自定义一个类继承RecordReader

在RecordReader中，nextKeyValue()是最重要的方法，返回当前读取到的key-value，如果读到返回true，调用Mapper的map()来处理，否则返回false

3. 编写程序

MyInputFormat.java

/*

 * 1. 改变切片策略，一个文件固定切1片，通过指定文件不可切

 *

 * 2. 提供RR ，这个RR读取切片的文件名作为key,读取切片的内容封装到bytes作为value

 */

public class MyInputFormat extends FileInputFormat {

	@Override

	public RecordReader createRecordReader(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

		return new MyRecordReader();

	}

	@Override

	protected boolean isSplitable(JobContext context, Path filename) {

		return false;

	}

}

MyRecordReader.java

/*

 * RecordReader从MapTask处理的当前切片中读取数据

 *

 * XXXContext都是Job的上下文，通过XXXContext可以获取Job的配置Configuration对象

 */

public class MyRecordReader extends RecordReader {

	private Text key;

	private BytesWritable value;

	private String filename;

	private int length;

	private FileSystem fs;

	private Path path;

	private FSDataInputStream is;

	private boolean flag=true;

	// MyRecordReader在创建后，在进入Mapper的run()之前，自动调用

	// 文件的所有内容设置为1个切片，切片的长度等于文件的长度

	@Override

	public void initialize(InputSplit split, TaskAttemptContext context) throws IOException, InterruptedException {

		FileSplit fileSplit=(FileSplit) split;

		filename=fileSplit.getPath().getName();

		length=(int) fileSplit.getLength();

		path=fileSplit.getPath();

		//获取当前Job的配置对象

		Configuration conf = context.getConfiguration();

		//获取当前Job使用的文件系统

		fs=FileSystem.get(conf);

		 is = fs.open(path);

	}

	// 读取一组输入的key-value，读到返回true,否则返回false

	// 将文件的名称封装为key，将文件的内容封装为BytesWritable类型的value，返回true

	// 第二次调用nextKeyValue()返回false

	@Override

	public boolean nextKeyValue() throws IOException, InterruptedException {

		if (flag) {

			//实例化对象

			if (key==null) {

				key=new Text();

			}

			if (value==null) {

				value=new BytesWritable();

			}

			//赋值

			//将文件名封装到key中

			key.set(filename);

			// 将文件的内容读取到BytesWritable中

			byte [] content=new byte[length];

			IOUtils.readFully(is, content, 0, length);

			value.set(content, 0, length);

			flag=false;

			return true;

		}

		return false;

	}

	//返回当前读取到的key-value中的key

	@Override

	public Object getCurrentKey() throws IOException, InterruptedException {

		return key;

	}

	//返回当前读取到的key-value中的value

	@Override

	public Object getCurrentValue() throws IOException, InterruptedException {

		return value;

	}

	//返回读取切片的进度

	@Override

	public float getProgress() throws IOException, InterruptedException {

		return 0;

	}

	// 在Mapper的输入关闭时调用，清理工作

	@Override

	public void close() throws IOException {

		if (is != null) {

			IOUtils.closeStream(is);

		}

		if (fs !=null) {

			fs.close();

		}

	}

}

CustomIFMapper.java

public class CustomIFMapper extends Mapper<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFReducer.java

public class CustomIFReducer extends Reducer<Text, BytesWritable, Text, BytesWritable>{

}

CustomIFDriver.java

public class CustomIFDriver {

	public static void main(String[] args) throws Exception {

		Path inputPath=new Path("e:/mrinput/custom");

		Path outputPath=new Path("e:/mroutput/custom");

		//作为整个Job的配置

		Configuration conf = new Configuration();

		//保证输出目录不存在

		FileSystem fs=FileSystem.get(conf);

		if (fs.exists(outputPath)) {

			fs.delete(outputPath, true);

		}

		// 创建Job

		Job job = Job.getInstance(conf);

		// 设置Job运行的Mapper，Reducer类型，Mapper,Reducer输出的key-value类型

		job.setMapperClass(CustomIFMapper.class);

		job.setReducerClass(CustomIFReducer.class);

		// Job需要根据Mapper和Reducer输出的Key-value类型准备序列化器，通过序列化器对输出的key-value进行序列化和反序列化

		// 如果Mapper和Reducer输出的Key-value类型一致，直接设置Job最终的输出类型

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(BytesWritable.class);

		// 设置输入目录和输出目录

		FileInputFormat.setInputPaths(job, inputPath);

		FileOutputFormat.setOutputPath(job, outputPath);

		// 设置输入和输出格式

		job.setInputFormatClass(MyInputFormat.class);

		job.setOutputFormatClass(SequenceFileOutputFormat.class);

		// ③运行Job

		job.waitForCompletion(true);

	}

}

MapReduce之自定义InputFormat的更多相关文章

MapReduce自定义InputFormat和OutputFormat
一.自定义InputFormat 需求:将多个小文件合并为SequenceFile(存储了多个小文件) 存储格式:文件路径+文件的内容 c:/a.txt I love Beijing c:/b.txt ...
MapReduce自定义InputFormat,RecordReader
MapReduce默认的InputFormat是TextInputFormat,且key是偏移量,value是文本,自定义InputFormat需要实现FileInputFormat,并重写creat ...
【Hadoop离线基础总结】MapReduce自定义InputFormat和OutputFormat案例
MapReduce自定义InputFormat和OutputFormat案例自定义InputFormat 合并小文件需求无论hdfs还是mapreduce,存放小文件会占用元数据信息,白白浪费内 ...
自定义InputFormat和OutputFormat案例
一.自定义InputFormat InputFormat是输入流,在前面的例子中使用的是文件输入输出流FileInputFormat和FileOutputFormat,而FileInputFormat ...
Hadoop(16)-MapReduce框架原理-自定义FileInputFormat
1. 需求将多个小文件合并成一个SequenceFile文件(SequenceFile文件是Hadoop用来存储二进制形式的key-value对的文件格式),SequenceFile里面存储着多个文 ...
Hadoop案例（六）小文件处理（自定义InputFormat）
小文件处理(自定义InputFormat) 1.需求分析无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案.将多个小文件合并 ...
自定义inputformat和outputformat
1. 自定义inputFormat 1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案 1.2 分析小文件的优 ...
Hadoop_28_MapReduce_自定义 inputFormat
1. 自定义inputFormat 1.1.需求: 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件,此时就需要有相应解决方案; 1.2.分析: 小文件的优化 ...
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现. Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java ...

随机推荐

用Python进行实时计算——PyFlink快速入门
Flink 1.9.0及更高版本支持Python,也就是PyFlink. 在最新版本的Flink 1.10中,PyFlink支持Python用户定义的函数,使您能够在Table API和SQL中注册和 ...
入门大数据---Kylin搭建与应用
由于Kylin官网已经是中文的了,而且写的很详细,这里就不再重述. 学习右转即可. 这里说个遇到的问题,当在Kylin使用SQL关键字时,要加上双引号,并且里面的内容要大写,这个和MySql有点区别需 ...
如何在Linux下使用Tomcat部署Web应用(图文)
学习Java必不可少的视同Tomcat,但是如果不会使用tomcat部署项目,那也是白扯,在这里教大家如果在Linux系统下视同Tomcat部署Web应用. 工具/原料 Apache-tomc ...
C# 特性篇 Attributes
特性[Required] (必修的) /// <summary> /// 操作人EmpID /// </summary> [Required] public string Op ...
你知道Redis可以实现延迟队列吗？
最近,又重新学习了下Redis,深深被Redis的魅力所折服,我才知道Redis不仅能快还能慢(我想也这么优秀o(╥﹏╥)o),简直是个利器呀. 咳咳咳,大家不要误会,本文很正经的啦! 好了,接下来回 ...
最快安装AndroidStudio的方法(小歪整理)
最快安装AndroidStudio的方法(小歪整理)-干货,加速加载和解决无法预览布局文件的等问题最快安装AndroidStudio的方法(小歪整理) 1.使用解压压缩包的方式安装:android- ...
html中map area 热区自适应的原生js实现方案
在做自适应网页的时候,如果在图片中使用了热区map.图片可以通过样式实现:图片大小随页面变化,但是MAP中每个area的坐标并不能通过css直接实现自适应.这篇文章就介绍通过原生js来实现:MAP中每 ...
「树形DP」洛谷P2607 [ZJOI2008]骑士
P2607 [ZJOI2008]骑士题面: 题目描述 Z 国的骑士团是一个很有势力的组织,帮会中汇聚了来自各地的精英.他们劫富济贫,惩恶扬善,受到社会各界的赞扬. 最近发生了一件可怕的事情,邪恶的 ...
dva的简介
dva的定义 dva 是基于现有应用架构 (redux + react-router + redux-saga 等)的一层轻量封装; redux 他是react当中的仓库,如果熟悉vue的话,他的功能 ...
PE解析器与加载器编写指南
PE解析器与加载器编写指南最近准备去实习,看公司要求应该开发PE相关的查杀引擎,因此再回头复习一下PE格式,重新写一个PE解析器和PE加载器,再此记录下有关坑. PE解析器部分: 1)如何确定节区表 ...