MR中使用sequnceFIle输入文件

转换原始数据为块压缩的SequenceFIle

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.SequenceFile.CompressionType;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.GzipCodec;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import com.hadoop.compression.lzo.LzoCodec;

public class ToSeqFile extends Configured implements Tool {

    @Override

    public int run(String[] arg0) throws Exception {

        Job job = new Job();

        job.setJarByClass(getClass());

        Configuration conf=getConf();

        FileSystem fs = FileSystem.get(conf);

        FileInputFormat.setInputPaths(job, "/home/hadoop/tmp/tmplzo.txt");

        Path outDir=new Path("/home/hadoop/tmp/tmplzo.out");

        fs.delete(outDir,true);

        FileOutputFormat.setOutputPath(job, outDir);

        //job.setMapperClass(IndentityMapper);

        job.setNumReduceTasks(0);

        job.setOutputKeyClass(LongWritable.class);

        job.setOutputValueClass(Text.class);

        //设置OutputFormat为SequenceFileOutputFormat

        job.setOutputFormatClass(SequenceFileOutputFormat.class);

        //允许压缩

         SequenceFileOutputFormat.setCompressOutput(job, true);

         //压缩算法为gzip

         SequenceFileOutputFormat.setOutputCompressorClass(job, LzoCodec.class);

        //压缩模式为BLOCK

         SequenceFileOutputFormat.setOutputCompressionType(job, CompressionType.BLOCK);

        return job.waitForCompletion(true)?0:1;

    }

    public static void main(String[] args) throws Exception {

        int res = ToolRunner.run(new Configuration(), new ToSeqFile(), args);

        System.exit(res);

    }

}

MR处理压缩后的sequenceFile

import org.apache.hadoop.io.Text;

import java.io.File;

import java.io.IOException;

import java.net.URI;

import java.util.Iterator;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.compress.*;

import org.apache.hadoop.mapreduce.ContextFactory;

import org.apache.hadoop.mapreduce.InputSplit;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MapFileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

import org.apache.hadoop.util.Progressable;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import org.apache.commons.logging.Log;

import org.apache.commons.logging.LogFactory;

//import org.apache.hadoop.mapred.DeprecatedLzoTextInputFormat;

import com.hadoop.compression.lzo.LzoCodec;

import com.hadoop.mapreduce.LzoTextInputFormat;

public class compress extends Configured implements Tool {

	private static final Log log = LogFactory.getLog(compress.class);

	private static class ProvinceMapper extends

			Mapper<Object, Text, Text, Text> {

		@Override

		protected void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			//System.out.println(value);

			// InputSplit inputSplit = context.getInputSplit();

			//String fileName = ((FileSplit) inputSplit).getPath().toString();

			//System.out.println(fileName);

			context.write(value, value);

		}

	}

	private static class ProvinceReducer extends

			Reducer<Text, Text, Text, Text> {

		@Override

		protected void reduce(Text key, Iterable<Text> values, Context context)

				throws IOException, InterruptedException {

			for (Text va : values) {

				// System.out.println("reduce " + key);

				context.write(key, key);

			}

		}

	}

	public static void main(String[] args) throws Exception {

		ToolRunner.run(new Configuration(), new compress(), args);

	}

	public static final String REDUCES_PER_HOST = "mapreduce.sort.reducesperhost";

	@Override

	public int run(String[] args) throws Exception {

		log.info("我的服务查询开始.....................................");

		long beg = System.currentTimeMillis();

		int result = 0;

		Configuration conf = new Configuration();

		conf.set(

				"io.compression.codecs",

				"org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,com.hadoop.compression.lzo.LzopCodec");

		conf.set("io.compression.codec.lzo.class",

				"com.hadoop.compression.lzo.LzoCodec");

		conf.setBoolean("mapreduce.map.output.compress", true);

	    conf.setClass("mapreduce.map.output.compression.codec", SnappyCodec.class, CompressionCodec.class);

	   // conf.setBoolean("mapreduce.output.fileoutputformat.compress", true); // 是否压缩输出

	    conf.setClass("mapreduce.output.fileoutputformat.compress.codec", SnappyCodec.class, CompressionCodec.class);

		String[] argArray = new GenericOptionsParser(conf, args)

				.getRemainingArgs();

		if (argArray.length != 2) {

			System.err.println("Usage: compress <in> <out>");

			System.exit(1);

		}

		// Hadoop总共有5个Job.java

		// /hadoop-2.0.0-cdh4.5.0/src/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/java/org/apache/hadoop/mapreduce/Job.java

		Job job = new Job(conf, "compress");

		job.setJarByClass(compress.class);

		job.setMapperClass(ProvinceMapper.class);

		job.setReducerClass(ProvinceReducer.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		 //job.setInputFormatClass(LzoTextInputFormat.class); // TextInputFormat

		// MyFileinput

		// 使用lzo索引文件作为输入文件

		// job.setInputFormatClass(LzoTextInputFormat.class);

		job.setInputFormatClass(SequenceFileInputFormat.class);

		// SequenceFileOutputFormat.set(job, LzoCodec.class);

		// 测试块大小

		// FileInputFormat.setMinInputSplitSize(job, 150*1024*1024);

		// FileInputFormat.setMinInputSplitSize(job, 301349250);

		// FileInputFormat.setMaxInputSplitSize(job, 10000);

		// 推测执行的开关 另外还有针对map和reduce的对应开关

		// job.setSpeculativeExecution(false);

		FileInputFormat.addInputPath(job, new Path(argArray[0]));

		FileOutputFormat.setOutputPath(job, new Path(argArray[1]));

		String uri = argArray[1];

		Path path = new Path(uri);

		FileSystem fs = FileSystem.get(URI.create(uri), conf);

		if (fs.exists(path)) {

			fs.delete(path);

		}

		result = job.waitForCompletion(true) ? 0 : 1;

//		try {

//			result = job.waitForCompletion(true) ? 0 : 1;

//		} catch (ClassNotFoundException | InterruptedException e) {

//			e.printStackTrace();

//		}

		long end = (System.currentTimeMillis() -beg) ;

        System.out.println("耗时:" + end);

		return result;

	}

}

测试结果

文件大小 544M(未使用任何压缩)
耗时:73805

使用 seqencefile(block使用lzo压缩, 中间结果使用snappy压缩)

44207s

MR中使用sequnceFIle输入文件的更多相关文章

MR中的combiner和partitioner
1.combiner combiner是MR编程模型中的一个组件: 有些任务中map可能会产生大量的本地输出,combiner的作用就是在map端对输出先做一次合并,以减少map和reduce节点之间 ...
总结的MR中连接操作
1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom 2 map side join 2.1 利用内存和分布式缓存,也有oom风险 2 ...
MR中简单实现自定义的输入输出格式
import java.io.DataOutput; import java.io.IOException; import java.util.HashMap; import java.util.Ma ...
MR操作
MR操作————Map.Partitioner.Shuffle.Combiners.Reduce 1.Map步骤 1.1 读取输入文件,解析成k-v对,其中每个k-v对调用一次map函数 1.2 写自 ...
【转】Hive配置文件中配置项的含义详解（收藏版）
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1 ...
MapReduce中的Join
一. MR中的join的两种方式: 1.reduce side join(面试题) reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文 ...
Hive配置文件中配置项的含义详解（收藏版）
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读: 1.hive输出格式的配置项是哪个? 2.hive被各种语言调用如何配置? 3.hive ...
Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数.Executor数.core数目的关系. 输入可能以多个文件的形式存储在H ...
Spark中Task，Partition，RDD、节点数、Executor数、core数目（线程池）、mem数
Spark中Task,Partition,RDD.节点数.Executor数.core数目的关系和Application,Driver,Job,Task,Stage理解 from:https://bl ...

随机推荐

flex buider 4.6 打开设计模式（designer）时提示内存不足错误的解决办法
先申明,此方法只适用于flex builder 4.6及以下版本, flex builder 4.7以后已经完全取消了designer功能,是没有办法补救的. 1. 首先下载APE文件,这个文件好像是 ...
SpringBoot | 第二十九章：Dubbo的集成和使用
前言今年年初时,阿里巴巴开源的高性能服务框架dubbo又开始了新一轮的更新,还加入了Apache孵化器.原先项目使用了spring cloud之后,已经比较少用dubbo.目前又抽调回原来的行业应用 ...
吴恩达《Machine Learning Yearning》总结（1-10章）
1.为什么选择机器学习策略案例:建立猫咪图像识别app 系统的优化可以有很多的方向: (1)获取更多的数据集,即更多的图片: (2)收集更多多样数据,如处于不常见的位置的猫的图,颜色奇异的猫的照片等 ...
不使用XMLHttpRequest实现异步加载：Iframe和script
运用Iframe和script可以实现简单的异步加载: 调用页面如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitiona ...
2018-12-20 第二章Java 预习作业
一.什么是变量?如何使用变量? 答:变量是在程序运行中其值可以改变的量,它是Java程序的一个基本存储单元. 变量的语法格式如下: [访问修饰符]变量类型变量名[=初始值]: 二.java中基本数据 ...
中值滤波C语言优化
中值滤波C语言优化图像平滑是图像预处理的基本操作,本文首先用不同的方法对一张图片做预处理比较它们效果的不同,然后针对中值滤波,实现了一种快速实现.(其实是copy的opencv实现,呵呵).因为op ...
菜鸟学习Spring——SpringMVC注解版前台向后台传值的两种方式
一.概述. 在很多企业的开法中常常用到SpringMVC+Spring+Hibernate(mybatis)这样的架构,SpringMVC相当于Struts是页面到Contorller直接的交互的框架 ...
wxpython CustomTreeCtrl
转自 http://xoomer.virgilio.it/infinity77/Phoenix/lib.agw.customtreectrl.CustomTreeCtrl.html这个网址中有许多控件 ...
Struts1.x 中处理乱码及通过标签显示数据
1.通过filter解决乱码问题网页的请求到达之前,先要经过filter的处理: 提取数据出现乱码:request.setCharacterEncoding("UTF-8"); ...
asyncio标准库7 Producer/consumer
使用asyncio.Queue import asyncio import random async def produce(queue, n): for x in range(1, n + 1): ...

MR中使用sequnceFIle输入文件

MR中使用sequnceFIle输入文件的更多相关文章

随机推荐

热门专题