MR案例：链式ChainMapper

类似于Linux管道重定向机制，前一个Map的输出直接作为下一个Map的输入，形成一个流水线。设想这样一个场景：在Map阶段，数据经过mapper01和mapper02处理；在Reduce阶段，数据经过sort和shuffle后，交给对应的reducer处理。reducer处理后并没有直接写入到Hdfs, 而是交给了另一个mapper03处理，它产生的最终结果写到hdfs输出目录中。

注意：对任意MR作业，Map和Reduce阶段可以有无限个Mapper，但reduer只能有一个。

package chain;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.VLongWritable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.chain.ChainMapper;

import org.apache.hadoop.mapreduce.lib.chain.ChainReducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Chain {

    /**

     *    手机    5000    * 需求：

     *    电脑    2000    * 在第一个Mapper1里面过滤大于10000的数据

     *    衣服    300　　　* 第二个Mapper2里面过滤掉大于100-10000的数据

     *    鞋子    1200    * Reduce里面进行分类汇总并输出

     *    裙子    434     * Reduce后的Mapper3里过滤掉商品名长度大于3的数据

     *    手套    12      *

     *    图书    12510   *

     *    小商品    5　　　* 结果：

     *    小商品    3     * 手套 12

     *    订餐      2     * 订餐 2

     */

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance(new Configuration());

        job.setJarByClass(Chain.class);

        /**

         * 配置mapper1

         * 注意此处带参数的构造函数：new Configuration(false)

         */

        Configuration map1Conf = new Configuration(false);

        ChainMapper.addMapper(job,         //主作业

                Mapper1.class,             //待加入的map class

                LongWritable.class,        //待加入map class的输入key类型

                Text.class,                //待加入map class的输入value类型

                Text.class,                //待加入map class的输出key类型

                VLongWritable.class,       //待加入map class的输出value类型

                map1Conf);                 //待加入map class的配置信息

        //配置mapper2

        ChainMapper.addMapper(job, Mapper2.class, Text.class, VLongWritable.class, Text.class, VLongWritable.class, new Configuration(false));

        /**

         * 配置Reducer

         * 注意此处使用的是setReducer()方法

         */

        ChainReducer.setReducer(job, Reducer_Only.class, Text.class, VLongWritable.class, Text.class, VLongWritable.class, new Configuration(false));

        //配置mapper3

        ChainReducer.addMapper(job, Mapper3.class, Text.class, VLongWritable.class, Text.class, VLongWritable.class, new Configuration(false));

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);

    }

    //Mapper1

    public static class Mapper1 extends Mapper<LongWritable, Text, Text, VLongWritable>{

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            /**

             * Hadoop中默认的输入格式 TextOutputFormat 只支持UTF-8格式

             * 所以解决GBK中文输出乱码问题的方法是：

             * 1. 先将输入的Text类型的value转换为字节数组

             * 2. 然后使用String的构造器String(byte[] bytes, int offset, int length, Charset charset)

             * 3. 通过使用指定的charset解码指定的byte子数组，构造一个新的String

             */

            String line=new String(value.getBytes(),0,value.getLength(),"GBK");

            String[] splited = line.split(" ");

            //过滤大于10000的数据

            if(Integer.parseInt(splited[1])<10000L){

                context.write(new Text(splited[0]), new VLongWritable(Long.parseLong(splited[1])));

            }

        }

    }

    //Mapper2

    public static class Mapper2 extends Mapper<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void map(Text key, VLongWritable value, Context context)

                throws IOException, InterruptedException {

            //过滤100-10000间的数据

            if(value.get()<100L){

                context.write(key, value);

            }

        }

    }

    //Reducer

    public static class Reducer_Only extends Reducer<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)

                throws IOException, InterruptedException {

            long sumLong=0L;

            for(VLongWritable vLongWritable : v2s){

                sumLong += vLongWritable.get();

                context.write(key, new VLongWritable(sumLong));

            }

        }

    }

    //Mapper3

    public static class Mapper3 extends Mapper<Text, VLongWritable, Text, VLongWritable>{

        @Override

        protected void map(Text key, VLongWritable value, Context context)

                throws IOException, InterruptedException {

            String line=new String(key.getBytes(),0,key.getLength(),"GBK");

            //过滤商品名称长度大于3

            if(line.length()<3){

                context.write(key, value);

            }

        }

    }

}

MR案例：链式ChainMapper的更多相关文章

组合式+迭代式+链式 MapReduce
1.迭代式mapreduce 一些复杂的任务难以用一次mapreduce处理完成,需要多次mapreduce才能完成任务,例如Pagrank,Kmeans算法都需要多次的迭代,关于mapreduce迭 ...
Hadoop的ChainMapper和ChainReducer使用案例（链式处理）（四）
不多说,直接上干货! Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分 ...
javascript链式运动框架案例
javascript链式运动框架任务描述: 当鼠标移入红色矩形时,该矩形宽度逐渐增加至400px,之后高度逐渐增加至400px; 当鼠标移出红色矩形时,该矩形高度逐渐减小至200px,之后宽度逐渐减 ...
jQuery编程基础精华01（jQuery简介,顶级对象$,jQuery对象、Dom对象,链式编程,选择器）
jQuery简介什么是jQuery? jQuery就是一个JavaScript函数库,没什么特别的.(开源)联想SQLHelper类 jQuery能做什么?jQuery是做什么的? jQuery本身 ...
jQuery链式编程
链式编程多行代码合并成一行代码,前提要认清此行代码返回的是不是对象.是对象才能进行链式编程 .html(‘val’).text(‘val’).css()链式编程,隐式迭代链式编程注意:$(‘div ...
从零开始学 Web 之 jQuery（七）事件冒泡，事件参数对象，链式编程原理
大家好,这里是「从零开始学 Web 系列教程」,并在下列地址同步更新...... github:https://github.com/Daotin/Web 微信公众号:Web前端之巅博客园:ht ...
Hadoop基础-Map端链式编程之MapReduce统计TopN示例
Hadoop基础-Map端链式编程之MapReduce统计TopN示例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求对“temp.txt”中的数据进行分析,统计出各 ...
模仿Masonry链式编程思想
使用masonry 也将近一年多了,它的链式编程方式一直是很吸引我的. 之前一直没空好好思考它是如何实现,直到现在正好自己有空,因此写下链式编程的基本思路. 链式基本的编程形式如 a.property ...
链式mapreduce
在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进行reduce,经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理,这样的Job是不会保存中 ...

随机推荐

spring boot 加载jsp
1.spring boot启动类继承SpringBootServletInitializer ,并且重写configure方法 package com.springapp.mvc;import jav ...
JavaScript 禁止表单提交
有时我们需要在表单真正提交之前,做一些检查工作,检查通过之后再进行提交. <form name="myForm" onsubmit = "validateMyFor ...
搜索R包和查看包的技巧
1.R怎么搜包 # 安装sos包 install.packages("sos") # 导入sos包 library(sos) # 使用函数findFn() 函数里面传入关键字来搜索 ...
如何让ios启动画面停留更长时间
几种方法: 方法1:在AppDelegate.m里写上 - (BOOL)application:(UIApplication *)application didFinishLaunchingWithO ...
Python并行编程(九)：线程通讯queue
1.基本概念当线程之间要共享资源或数据的时候,可能变的非常复杂.Python的threading模块提供了很多同步原语,包括信号量,条件变量,事件和锁.如果可以使用这些原语的话,应该优先考虑使用这些 ...
【IPC进程间通讯之中的一个】邮槽MailSlot
IPC进程间通信+邮槽MailSlot IPC(Inter-Process Communication.进程间通信). 现代计算机採用虚拟内存机制,为进程提 ...
thinkphp curd的事务回滚一看就会
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/qq1355541448/article/details/32314403 /** ...
ffmpeg,rtmpdump和nginx rtmp实现录屏，直播和录制
公司最近在做视频直播的项目,我这里分配到对直播的视频进行录制,录制的方式是通过rtmpdump对rtmp的视频流进行录制前置的知识 ffmpeg: 用于实现把录屏工具发出的视频和音频流,转换成我们需 ...
如何确定LDA的主题个数
本文参考自:https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题. 当各个topic之间的相似度的最小的时候,就可以算是找到了合 ...
DEPHI XE5 XE6 ANDROID IOS开发的几点体会
DEPHI XE5 XE6 ANDROID IOS开发的几点体会 2014-09-04 20:48 1.不纠结于APK或者APP的大小.现在的客户端设备都很廉价,300元以上的新安卓设备都不在乎软件的 ...

MR案例：链式ChainMapper

MR案例：链式ChainMapper的更多相关文章

随机推荐

热门专题