MapReduce原理——Shuffle机制

在Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle.

Map方法输出的数据会获得对应的分区，进入环形缓冲区（缓冲区一半写索引，另一半写数据）。数据达到缓冲区的80%会发生溢写。在溢写之前会对key索引进行快排（按照数据字典），最后对分区进行归并排序。在归并后还可进行对数据的压缩，帮助将数据写入磁盘中。

Partition分区

要求将统计结果按照条件输出到不同的文件中（分区）。比如手机号按照归属地不同身份输出到不同文件中（分区）

源码分析

　　以wordCount

在driver中添加代码

instance.setNumReduceTasks(2);

在mapper中的context.write()方法打断点

进入最后的write()方法里，collector就是环形缓冲区，然后进去参数里的方法

进入获得分区的方法 getPartition()

public int getPartition(K key, V value, int numReduceTasks) {
    return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;
}

这个方法是设置的默认分区，根据key的hashCode对ReduceTask个数取模得到的，用户没法控制那个key存储到分区中。

自定义Partitioner步骤：

　　定义类继承Partitioner，重写getPartitioner()方法

　　在job驱动中设置定义的partitioner.

　　设置reducetask的数量。

自定义设置分区案例

package com.rsh.mapreduce.partitioner2;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

public class ProvincePartitioner extends Partitioner<Text,FlowBean>{

    @Override

    public int getPartition(Text text, FlowBean flowBean, int numPartitions) {

        int partition;

        String phone = text.toString();

        String prePhone = phone.substring(0, 3);

        if("136".equals(prePhone)){

            partition = 0;

        } else if ("137".equals(prePhone)) {

            partition = 1;

        }else if ("138".equals(prePhone)) {

            partition = 2;

        }else if ("139".equals(prePhone)) {

            partition = 3;

        }else {

            partition = 4;

        }

        return partition;

    }

}

package com.rsh.mapreduce.partitioner2;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class FlowDriver {

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {

        //获取job对象

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        //关联本driver类

        job.setJarByClass(FlowDriver.class);

        //关联Mapper、Reducer类

        job.setMapperClass(FlowMapper.class);

        job.setReducerClass(FlowReducer.class);

        //设置Map的outKV类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBean.class);

        //设置程序最终输出类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBean.class);

        job.setPartitionerClass(ProvincePartitioner.class);

        job.setNumReduceTasks(5);

        //设置程序的输入输出路径

        FileInputFormat.setInputPaths(job,new Path("D:\\hadoopMR\\MRInput\\flow.txt"));

        FileOutputFormat.setOutputPath(job,new Path("D:\\hadoopMR\\MROutput5"));

        //提交job

        boolean b = job.waitForCompletion(true);

        System.exit(b ? 0 : 1);

    }

}

MapReduce原理——Shuffle机制的更多相关文章

MapReduce(五) mapreduce的shuffle机制与 Yarn
一.shuffle机制 1.概述 (1)MapReduce 中, map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle:( ...
Hadoop(17)-MapReduce框架原理-MapReduce流程,Shuffle机制,Partition分区
MapReduce工作流程 1.准备待处理文件 2.job提交前生成一个处理规划 3.将切片信息job.split,配置信息job.xml和我们自己写的jar包交给yarn 4.yarn根据切片规划计 ...
MapReduce框架原理--Shuffle机制
Shuffle机制 Mapreduce确保每个reducer的输入都是按键排序的.系统执行排序的过程(Map方法之后,Reduce方法之前的数据处理过程)称之为Shuffle. partition分区 ...
【待完成】[MapReduce_9] MapReduce 的 Shuffle 机制
0. 说明待补充...
Hadoop（十四）MapReduce原理分析
前言上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理. Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于had ...
Hadoop — MapReduce原理解析
1. 概述 Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架: Mapreduce核心功能是将用户编写的业务逻辑代码和自带默 ...
MapReduce原理2
MapReduce的shuffle机制 1.概述 mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle: shu ...
MAPREDUCE原理篇2
mapreduce的shuffle机制概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle: shuf ...
Hadoop_18_MapRduce 内部的shuffle机制
1.Mapreduce的shuffle机制: Mapreduce中,map阶段处理的数据如何传递给Reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle 将mapta ...
MapReduce实例2（自定义compare、partition）& shuffle机制
MapReduce实例2(自定义compare.partition)& shuffle机制实例:统计流量有一份流量数据,结构是:时间戳.手机号.....上行流量.下行流量,需求是统计每个用 ...

随机推荐

解决前端发送post 请求出现403，cancled等问题
问题一:页面初始加载,部分接口首次请求options是200,然后第二次post请求cancled状态 1. 检查console控制台报错,如果是接口问题,就不用操心了 2.如果是其他报错,那么就不用 ...
使用字节流丢读取中文的问题-Reader类
使用字节流丢读取中文的问题当使用字节流读取文本文件时,可能会有一个小问题.就是遇到中文字符时,可能不会显示完整的字符,那是因为一个中文字符可能占用多个字节存储.所以Java提供一些字符流类,以字符为 ...
HelloWorld的常见问题与Notepad++使用-程序注释与Hello World说明
HelloWorld的常见问题与Notepad++使用编译和运行是两回事编译:是指将我们编写的Java源文件翻译成JVM认识的class文件,在这个过程中, javac 编译器会检查我们所写的程 ...
Web 页面如何实现动画效果
Web 页面可以使用多种方式实现动画效果,其中最常用的有两种: CSS 动画:通过 CSS 中的 transition 和 animation 属性来实现动画效果.CSS 动画实现起来简单,性能消耗小 ...
移动 WEB 开发布局方式 ---- flex 布局
一.flex布局体验 1.1 传统布局 flex 布局 1. 2 初体验 1. 搭建 HTML 结构 <div> <span>1</span> <span&g ...
通过pdf模板，填充内容，生成pdf文件---JAVA
1 概述我们通常会遇到需要生成某些固定格式,但是内容不同的文件,那么我们就可以使用⽤Adobe Acrobat DC来创建pdf模块,然后通过代码对模板进行填充,生成pdf文件 2 创建一个pdf模 ...
spring cloud12-spring cloud sleuth
1.为什么需要Spring Cloud Sleuth 微服务架构是一个分布式架构,它按业务划分服务单元,一个分布式系统往往有很多个服务单元.由于服务单元数量众多,业务的复杂性,如果出现了错误和异常,很 ...
Cannot access child value on Newtonsoft.Json.Linq.JValue
开发项目框架为.net framework,遇到此问题原因是笔者在做接口转发时接口返回类型直接定义为了object类型,这导致格式化返回结果时出现如标题异常,具体代码如下 try { var resu ...
Ribbon服务调用+负载均衡(入门)
1.Ribbon Ribbon中文:(用于捆绑或装饰的)带子; 丝带; 带状物; 主要功能是提供客户端的软件负载均衡算法和服务调用 Ribbon已经进入了维护模式了,但是Ribbon仍然被广泛使用中 ...
jquery（三：jquery的动画）
动画一:1.显示 show() 参数:1.代表动画执行的时长,毫秒数,也可以是代表时长的字符串 fast normal slow 2.代表方法执行完毕的回调函数默认的是:normal $(func ...

MapReduce原理——Shuffle机制

MapReduce原理——Shuffle机制的更多相关文章

随机推荐

热门专题