MapReduce-二进制输入

Hadoop的MapReduce不只是可以处理文本信息，它还可以处理二进制格式的数据
1. 关于SequenceFileInputFormat类
Hadoop的顺序文件格式存储二进制的键/值对的序列。由于它们是可分割的(它们有同步点，所以reader可以从文件中的任意一点雨记录边界进行同步，例如分片的起点)，所以它们很符合MapReduce数据的格式要求，并且它们还支持压缩，可以使用一些序列化技术来存储任意类型。
如果要用顺序文件数据作为MapReduce的输入，应用SequenceFileInputFormat。键和值是由顺序文件决定，所以只需要保证map输入的类型匹配。
虽然从名称上看不出来，但SequenceFileInputFormat可以读MapFile(排序后的SequenceFile)和SequenceFile。如果在处理顺序文件时遇到目录，SequenceFileInputFormat类会认为自己正在读MapFile，使用的是其数据文件。

2. 关于SequenceFileAsTextInputFormat类
SequenceFileAsTextInputFormat是SequenceFileInputFormat的变体，它将顺序文件的键和值转换为Text对象。这个转换通过在键和值上调用toString方法实现。这个格式是顺序文件作为Streaming的合适的输入类型。

3. 关于SequenceFileAsBinaryInputFormat类
SequenceFileAsBinaryInputFormat是SequenceFileInputFormat的一种变体，它获取顺序文件的键和值作为二进制对象。它们被封装为BytesWritable对象，因而应用程序可以任意地解释这些字节数组。结合使用SequenceFile.Reader的appendRaw()方法或SequenceFileAsBinaryOutputFormat，它提供了在MapReduce中可以使用任意二进制数据类型的方法。

例子

将数据文件存为SequenceFile

package com.zhen.mapreduce.sequenceToText;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.SequenceFile.CompressionType;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

/**

 * @author FengZhen

 * @date 2018年8月18日

 * 输出为SequenceFile

 */

public class TextToSequence {

	 public static void main(String[] args) throws Exception {

	        Configuration conf = new Configuration();

	        Job job = Job.getInstance(conf);

	        job.setJarByClass(TextToSequence.class);

	        job.setMapperClass(WCMapper.class);

	        job.setReducerClass(WCReducer.class);

	        job.setOutputKeyClass(Text.class);

	        job.setOutputValueClass(VLongWritable.class);        

	        // 设置输出类

	        job.setOutputFormatClass(SequenceFileOutputFormat.class);

	        /**

	         * 设置sequecnfile的格式，对于sequencefile的输出格式，有多种组合方式,

	         * 从下面的模式中选择一种，并将其余的注释掉

	         */

	        // 组合方式1：不压缩模式

	        SequenceFileOutputFormat.setOutputCompressionType(job, CompressionType.NONE);

	        //组合方式2：record压缩模式，并指定采用的压缩方式 ：默认、gzip压缩等

	        //        SequenceFileOutputFormat.setOutputCompressionType(job,

	        //                CompressionType.RECORD);

	        //        SequenceFileOutputFormat.setOutputCompressorClass(job,

	        //                DefaultCodec.class);

	        //组合方式3：block压缩模式，并指定采用的压缩方式 ：默认、gzip压缩等

	        //        SequenceFileOutputFormat.setOutputCompressionType(job,

	        //                CompressionType.BLOCK);

	        //        SequenceFileOutputFormat.setOutputCompressorClass(job,

	        //                DefaultCodec.class);

	        FileInputFormat.addInputPaths(job, "hdfs://fz/user/hdfs/MapReduce/data/squenceFile/origin");

	        SequenceFileOutputFormat.setOutputPath(job, new Path("hdfs://fz/user/hdfs/MapReduce/data/squenceFile/textToSequence/output"));

	        System.exit(job.waitForCompletion(true)?0:1);

	    }

	    //map

	    public static class WCMapper extends

	    Mapper<LongWritable, Text, Text, VLongWritable> {

	        public void map(LongWritable key, Text value, Context context)

	                throws IOException, InterruptedException {

	            String[] split = value.toString().split("");

                for(String s : split){

                    context.write(new Text(s), new VLongWritable(1L));

                }

	        }

	    }

	    //reduce

	    public static class WCReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{

	        @Override

	        protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)

	                throws IOException, InterruptedException {

	            long sum=0;

	            for(VLongWritable vl : v2s){

	                sum += vl.get();

	            }

	            context.write(key, new VLongWritable(sum));

	        }

	    }

}

读取SequenceFile存为Text

package com.zhen.mapreduce.sequenceToText;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * @author FengZhen

 * @date 2018年8月18日

 * 输入为SequenceFile

 */

public class SequenceToText extends Configured implements Tool{

	static class SequenceToTextMapper extends Mapper<Text, VLongWritable, Text, VLongWritable>{

		@Override

		protected void map(Text key, VLongWritable value,

				Mapper<Text, VLongWritable, Text, VLongWritable>.Context context)

				throws IOException, InterruptedException {

			String contents = value.toString();

			System.out.println(contents);

			context.write(key, value);

		}

	}

	static class SequenceToTextReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{

		@Override

		protected void reduce(Text key, Iterable<VLongWritable> value,

				Reducer<Text, VLongWritable, Text, VLongWritable>.Context context)

				throws IOException, InterruptedException {

			long sum = 0;

			while (value.iterator().hasNext()) {

				sum += Integer.parseInt(value.iterator().next().toString());

			}

			context.write(key, new VLongWritable(sum));

		}

	}

	public int run(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = Job.getInstance(conf);

		job.setJobName("SequenceToText");

		job.setJarByClass(SequenceToText.class);

		job.setInputFormatClass(SequenceFileInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		job.setMapperClass(SequenceToTextMapper.class);

		job.setReducerClass(SequenceToTextReducer.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(VLongWritable.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(VLongWritable.class);

		SequenceFileInputFormat.setInputPaths(job, new Path(args[0]));

		TextOutputFormat.setOutputPath(job, new Path(args[1]));

		return job.waitForCompletion(true) ? 0 : 1;

	}

	public static void main(String[] args) throws Exception {

		String[] params = new String[]{"hdfs://fz/user/hdfs/MapReduce/data/squenceFile/textToSequence/output","hdfs://fz/user/hdfs/MapReduce/data/squenceFile/sequenceToText/output"};

		int exitCode = ToolRunner.run(new SequenceToText(), params);

		System.out.println(exitCode);

		System.exit(exitCode);

	}

}

MapReduce-二进制输入的更多相关文章

Hadoop MapReduce常用输入输出格式
这里介绍MapReduce常用的几种输入输出格式. 三种常用的输入格式:TextInputFormat , SequenceFileInputFormat , KeyValueInputFormat ...
Hadoop学习之路（二十二）MapReduce的输入和输出
MapReduce的输入作为一个会编写MR程序的人来说,知道map方法的参数是默认的数据读取组件读取到的一行数据 1.是谁在读取? 是谁在调用这个map方法? 查看源码Mapper.java知道是r ...
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中. 默认的partitioner是HashPartitin ...
MapReduce的输入格式
1. InputFormat接口 InputFormat接口包含了两个抽象方法:getSplits()和creatRecordReader().InputFormat决定了Hadoop如何对文件进行分 ...
vb---输入模式之文本输入与二进制输入区别
使用 VB6 MSCOMM 控件进行二进制收发发布时间:2012-01-10 12:12:01 技术类别:嵌入式 MSCOMM 控件是用于串口通信的,使用方便.在VB中,这个串口控件缺省是 ...
C++二进制输入输出流接口设计
提到输入输出流,作为CPPer很自然的就会想到std::iostream,对于文本流的处理,iostream可以说足够强大,应付一般复杂度的需求毫无压力.对二进制流处理却只能用“简陋”来形容,悲催的是 ...
mapreduce 多种输入
1.多路径输入 1)FileInputFormat.addInputPath 多次调用加载不同路径 FileInputFormat.addInputPath(job, new Path("h ...
Hadoop MapReduce编程 API入门系列之MapReduce多种输入格式（十七）
不多说,直接上代码. 代码 package zhouls.bigdata.myMapReduce.ScoreCount; import java.io.DataInput; import java.i ...
mapreduce的输入格式 --- InputFormat
InputFormat 接口决定了mapreduce如何切分输入文件. InputFormat 由getspilit和createRecordReader组成,getspilit主要是标记分片的初始位 ...
MapReduce wordcount 输入路径为目录 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)Lorg/apache/hadoop/io/nativeio/NativeIO$POSIX$Stat;
之前windows下执行wordcount都正常,今天执行的时候指定的输入路径是文件夹,然后就报了如题的错误,把输入路径改成文件后是正常的,也就是说目前的wordcount无法对多个文件操作报的异常 ...

随机推荐

ios中的coredata
本文转载至 http://blog.csdn.net/chen505358119/article/details/9334831 分类: ios2013-07-15 18:12 12449人阅读评论 ...
python学习【第三篇】基本数据类型
Number(数字) int(整型) 在32位机器上,整数的位数为32位,取值范围为-2**31-2**31-1,即-2147483648-2147483647 在64位系统上,整数的位数为64位,取 ...
网络流——SAP模板
//网络流SAP模板,复杂度O(N^2*M) //使用前调用init(源点,汇点,图中点的个数),然后调用add_edge()加边 //调用getflow得出最大流 #define N 55 #def ...
【BZOJ1823】[JSOI2010]满汉全席 2-SAT
[BZOJ1823][JSOI2010]满汉全席 Description 满汉全席是中国最丰盛的宴客菜肴,有许多种不同的材料透过满族或是汉族的料理方式,呈现在數量繁多的菜色之中.由于菜色众多而繁杂,只 ...
CSS如何清除浮动流的多种方案
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
巨蟒python全栈开发linux之centos1
1.linux服务器介绍 2.linux介绍 3.linux命令学习 linux默认有一个超级用户root,就是linux的皇帝注意:我的用户名是s18,密码是centos 我们输入密码,点击解锁( ...
[转载]Apache在windows下的安装配置
Apache在windows下的安装配置转载自:http://blog.sina.com.cn/s/blog_536f16b00100cfat.html 1 Apache的下载 Apache ...
D3D9和OpenGL加载纹理图片的API是哪个？
D3D9 创建一个空纹理,当返回 S_OK 且 ppTexture 纹理对象指针不为 NULL 时,则表示该函数调用成功. HRESULT D3DXCreateTexture( _In_ LPDIR ...
Python3.6全栈开发实例[023]
23.税务部门征收所得税. 规定如下: (1)收入在2000以下的. 免征. (2)收入在2000-4000的, 超过2000部分要征收3%的税. (3)收入在4000-6000的, 超过4000部分 ...
python之网络socket编程
一.网络协议客户端/服务器架构 1.硬件C/S架构(打印机) 2.软件C/S架构(互联网中处处是C/S架构):B/S架构也是C/S架构的一种,B/S是浏览器/服务器 C/S架构与socket的关系: ...

MapReduce-二进制输入

MapReduce-二进制输入的更多相关文章

随机推荐

热门专题