MapReduce应用案例--简单排序

1. 设计思路

　　在MapReduce过程中自带有排序，可以使用这个默认的排序达到我们的目的。 MapReduce 是按照key值进行排序的，我们在Map过程中将读入的数据转化成IntWritable类型，然后作为Map的key值输出。 Reduce 阶段拿到的就是按照key值排序好的<key,value list>,将key值输出，并根据value list 中元素的个数决定key的输出次数。

2. 实现

　　2.1 程序代码

package sort;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SimpleSort {

    public static class Map extends

            Mapper<LongWritable, Text, IntWritable, IntWritable> {

        private IntWritable data;

        protected void map(LongWritable key, Text value, Context context)

                throws java.io.IOException, InterruptedException {

            data = new IntWritable();

            String line = value.toString();

            data.set(Integer.parseInt(line));

            context.write(data, new IntWritable(1));

        };

    }

    public static class Reduce extends

            Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {

        private static IntWritable num = new IntWritable(1);

        protected void reduce(IntWritable key,

                java.lang.Iterable<IntWritable> values, Context output)

                throws java.io.IOException, InterruptedException {

            for ( IntWritable val : values){

                output.write(num, key);

                num = new IntWritable(num.get() + 1);

            }

        };

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf =  new Configuration();

        Job job = new Job(conf,"simple sort");

        job.setJarByClass(SimpleSort.class);

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path("/user/hadoop_admin/sortin"));

        FileOutputFormat.setOutputPath(job, new Path("/user/hadoop_admin/sortout"));

        System.exit((job.waitForCompletion(true) ? 0 : 1));

    }

}

　　2.2 测试结果

　　测试用例

　　file1

　　file2

　　运行信息

// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

// :: WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.

****hdfs://master:9000/user/hadoop_admin/sortin

// :: INFO input.FileInputFormat: Total input paths to process :

// :: WARN snappy.LoadSnappy: Snappy native library not loaded

// :: INFO mapred.JobClient: Running job: job_local_0001

// :: INFO mapred.Task:  Using ResourceCalculatorPlugin : null

// :: INFO mapred.MapTask: io.sort.mb =

// :: INFO mapred.MapTask: data buffer = /

// :: INFO mapred.MapTask: record buffer = /

// :: INFO mapred.MapTask: Starting flush of map output

// :: INFO mapred.MapTask: Finished spill

// :: INFO mapred.Task: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.LocalJobRunner:

// :: INFO mapred.Task: Task 'attempt_local_0001_m_000000_0' done.

// :: INFO mapred.Task:  Using ResourceCalculatorPlugin : null

// :: INFO mapred.MapTask: io.sort.mb =

// :: INFO mapred.MapTask: data buffer = /

// :: INFO mapred.MapTask: record buffer = /

// :: INFO mapred.MapTask: Starting flush of map output

// :: INFO mapred.MapTask: Finished spill

// :: INFO mapred.Task: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.LocalJobRunner:

// :: INFO mapred.Task: Task 'attempt_local_0001_m_000001_0' done.

// :: INFO mapred.Task:  Using ResourceCalculatorPlugin : null

// :: INFO mapred.LocalJobRunner:

// :: INFO mapred.Merger: Merging  sorted segments

// :: INFO mapred.Merger: Down to the last merge-pass, with  segments left of total size:  bytes

// :: INFO mapred.LocalJobRunner:

// :: INFO mapred.Task: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting

// :: INFO mapred.LocalJobRunner:

// :: INFO mapred.Task: Task attempt_local_0001_r_000000_0 is allowed to commit now

// :: INFO output.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to /user/hadoop_admin/sortout

// :: INFO mapred.LocalJobRunner: reduce > reduce

// :: INFO mapred.Task: Task 'attempt_local_0001_r_000000_0' done.

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient: Job complete: job_local_0001

// :: INFO mapred.JobClient: Counters:

// :: INFO mapred.JobClient:   File Output Format Counters

// :: INFO mapred.JobClient:     Bytes Written=

// :: INFO mapred.JobClient:   FileSystemCounters

// :: INFO mapred.JobClient:     FILE_BYTES_READ=

// :: INFO mapred.JobClient:     HDFS_BYTES_READ=

// :: INFO mapred.JobClient:     FILE_BYTES_WRITTEN=

// :: INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=

// :: INFO mapred.JobClient:   File Input Format Counters

// :: INFO mapred.JobClient:     Bytes Read=

// :: INFO mapred.JobClient:   Map-Reduce Framework

// :: INFO mapred.JobClient:     Reduce input groups=

// :: INFO mapred.JobClient:     Map output materialized bytes=

// :: INFO mapred.JobClient:     Combine output records=

// :: INFO mapred.JobClient:     Map input records=

// :: INFO mapred.JobClient:     Reduce shuffle bytes=

// :: INFO mapred.JobClient:     Reduce output records=

// :: INFO mapred.JobClient:     Spilled Records=

// :: INFO mapred.JobClient:     Map output bytes=

// :: INFO mapred.JobClient:     Total committed heap usage (bytes)=

// :: INFO mapred.JobClient:     Combine input records=

// :: INFO mapred.JobClient:     Map output records=

// :: INFO mapred.JobClient:     SPLIT_RAW_BYTES=

// :: INFO mapred.JobClient:     Reduce input records=

　　结果

MapReduce应用案例--简单排序的更多相关文章

MapReduce应用案例--简单的数据去重
1. 设计思路去重,重点就是无论某个数据在文件中出现多少次,最后只是输出一次就可以. 根据这一点,我们联想到在reduce阶段数据输入形式是 <key, value list>,只要是k ...
批处理引擎MapReduce应用案例
批处理引擎MapReduce应用案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. MapReduce能够解决的问题有一个共同特点:任务可以被分解为多个子问题,且这些子问题相对独立 ...
Java数据结构和算法之数组与简单排序
一.数组于简单排序数组数组(array)是相同类型变量的集合,可以使用共同的名字引用它.数组可被定义为任何类型,可以是一维或多维.数组中的一个特别要素是通过下标来访问它.数组提供了一种将有联系的信 ...
简单排序算法 C++类实现
简单排序算法: 冒泡排序插入排序选择排序 .h代码: // // SortClass.h // sort and selection // // Created by wasdns on 16/1 ...
iOS简单排序--字母排序、NSDictionary排序
// 数组用系统方法compare做字母的简单排序 NSArray *oldArray = @[@"bac",@"bzd",@"azc",@ ...
简单排序算法设计（Java）
总共有八种排序算法,还是慢慢看吧 1.简单排序算法简单排序算法就是设置标兵,逐个比较数,然后查找插入位置,插入 public static void p(int[] a){ for(int i=0; ...
Java数据结构和算法 - 简单排序
Q: 冒泡排序? A: 1) 比较相邻的元素.如果第一个比第二个大,就交换它们两个; 2) 对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对.在这一点,最后的元素应该会是最大的数; 3) 针 ...
《Algorithms算法》笔记：元素排序(1)——简单排序
<Algorithms算法>元素排序(1)——简单排序 Algorithms算法元素排序1简单排序排序问题 1 回调函数 2Java中回调函数的路线图 3 全序 4 Comparable ...
MapReduce 使用案例
MapReduce 使用案例 MapReduce在面试过程中出现的频率还是挺高的,尤其是数据挖掘等岗位.通常面试官会出一个大数据题目,需要被试者根据题目设计基于MapReduce的算法来解答.我在一个 ...

随机推荐

IOS - Passbook
1. 什么是Passbook Passbook是苹果公司于北京时间2012年6月12日上午,在全球开发者大会(WWDC)上宣布了iOS 6系统将提供操作一个全新的应用——Passbook 这是一款可以 ...
ASP.NET SignalR 与 LayIM2.0 配合轻松实现Web聊天室（四）之用户搜索（Elasticsearch），加好友流程（1）。
前面几篇基本已经实现了大部分即时通讯功能:聊天,群聊,发送文件,图片,消息.不过这些业务都是比较粗犷的.下面我们就把业务细化,之前用的是死数据,那我们就从加好友开始吧.加好友,首先你得知道你要加谁.L ...
CLR via C#（04）- 本是同根生
一.等值性——Equals()方法有时候我们需要比较两个对象是否相等,比如在一个ArrayList中进行排序查找等操作时. System.Object提供了Equals()虚方法: class Ob ...
gbdt可视化
gbdt的最大优点,和决策树一样,高度可解释,最喜欢的分类模型:) #!/usr/bin/env python #coding=gbk # ============================== ...
理解Java中的final和static关键字
回顾这两个关键字前,先考虑一个问题: Static变量存储在JVM中的位置,或者说static变量是如何被加载的? JVM会把类的静态方法和静态变量在类加载的过程中读入方法区(Method Area) ...
Java集合源码学习（五）几种常用集合类的比较
这篇笔记对几个常用的集合实现,从效率,线程安全和应用场景进行综合比较. >>ArrayList.LinkedList与Vector的对比 (1)相同和不同都实现了List接口,使用类似.V ...
JavaScript - call(this)
为什么使用call(this), 而不是直接使用(function(){})(); "use strict" function Foo() { (function() { cons ...
hdu 4739 2013杭州赛区网络赛寻找平行坐标轴的四边形 **
是平行坐标轴的,排个序搞一下就行了,卧槽,水的不行如果不是平行的,则需要按照边长来判断
C#中var和dynamic
var与dynamic这两个关键字,只是看起来很相似,仅此而已!var表示“变量的类型是在编译时决定的”,但是dynamic表示“变量的类型是在运行时决定的”.因此,dynamic与var具有截然不 ...
C++读取文件夹中所有的文件或者是特定后缀的文件
由于经常有读取一个文件夹中的很多随机编号的文件,很多时候需要读取某些特定格式的所有文件. 下面的代码可以读取指定文件家中的所有文件和文件夹中格式为jpg的文件参考: http://www.2cto. ...

MapReduce应用案例--简单排序

MapReduce应用案例--简单排序的更多相关文章

随机推荐

热门专题