http://www.aboutyun.com/thread-8927-1-1.html





Mapreduce在hadoop中是一个比較难以的概念。以下须要用心看,然后自己就能总结出来了。

概括:

combine和partition都是函数。中间的步骤应该仅仅有shuffle!



1.combine

combine分为map端和reduce端,作用是把同一个key的键值对合并在一起,能够自己定义的。

combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一个新的<key2,value2>.将新的<key2,value2>作为输入到reduce函数中

这个value2亦可称之为values,由于有多个。这个合并的目的是为了降低网络传输。



详细实现是由Combine类。

实现combine函数,该类的主要功能是合并同样的key键。通过job.setCombinerClass()方法设置。默觉得null,不合并中间结果。实现map函数

详细调用:(下图是调用reduce,合并map的个数)



难点:不知道这个reduce和mapreduce中的reduce差别是什么?

以下简单说一下:后面慢慢琢磨:

在mapreduce中。map多,reduce少。

在reduce中因为数据量比較多。所以干脆。我们先把自己map里面的数据归类,这样到了reduce的时候就减轻了压力。



这里举个样例:

map与reduce的样例

map理解为销售人员,reduce理解为销售经理。

每一个人(map)仅仅管销售,赚了多少钱销售人员不统计。也就是说这个销售人员没有Combine,那么这个销售经理就累垮了。由于每一个人都没有统计,它须要统计全部人员卖了多少件。赚钱了多少钱。

这样是不行的。所以销售经理(reduce)为了减轻压力,每一个人(map)都必须统计自己卖了多少钱,赚了多少钱(Combine),然后经理所做的事情就是统计每一个人统计之后的结果。这样经理就轻松多了。所以Combine在map所做的事情。减轻了reduce的事情。

(这就是为什么说map的Combine干reduce的事情。相信你应该明确了)

public  static void main(String[] args)throws IOException {

        Configuration conf = new Configuration();

        Job job = new Job(conf);

        job.setInputFormatClass(TextInputFormat.class);

        job.setMapperClass(Mapper.class);

        job.setCombinerClass(reduce.class);

        job.setPartitionerClass(HashPartitioner.class);

        job.setReducerClass(Reducer.class);

        job.setOutputFormatClass(TextOutFormat.class);

    }

}

2.partition

partition是切割map每一个节点的结果,依照key分别映射给不同的reduce。也是能够自己定义的。这里事实上能够理解归类。

我们对于错综复杂的数据归类。比方在动物园里有牛羊鸡鸭鹅。他们都是混在一起的。可是到了晚上他们就各自牛回牛棚。羊回羊圈,鸡回鸡窝。partition的作用就是把这些数据归类。仅仅只是在敲代码的时候,mapreduce使用哈希HashPartitioner帮我们归类了。这个我们也能够自己定义。

HashPartitioner是mapreduce的默认partitioner。

计算方法是



which reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks。得到当前的目的reducer。

以下在看该怎样自己定义,该怎样调用:(以下便是自己定义了一个Partition函数。红字部分是算法的核心,也就是分区的核心)

public static class Partition extends Partitioner<IntWritable, IntWritable> {

                @Override

                public int getPartition(IntWritable key, IntWritable value,

                                int numPartitions) {

                        int Maxnumber = 65223;

                        int bound = Maxnumber / numPartitions + 1;

                        int keynumber = key.get();

                        for (int i = 0; i < numPartitions; i++) {

                                if (keynumber < bound * i && keynumber >= bound * (i - 1)) {

                                        return i - 1;

                                }

                        }

                        return 0;

                }



        }

那么我们该怎样调用:(以下调用之后,你的分区函数就生效了)

public static void main(String[] args) throws IOException,

InterruptedException, ClassNotFoundException {

Configuration conf = new Configuration();

Job job = new Job(conf, "sort");

job.setJarByClass(Sort.class);

job.setMapperClass(Map.class);

job.setReducerClass(Reduce.class);

job.setPartitionerClass(Partition.class);

job.setOutputKeyClass(IntWritable.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.setInputPaths(job, "/home/asheng/hadoop/in");

FileOutputFormat

.setOutputPath(job, new Path("/home/asheng/hadoop/out"));

job.waitForCompletion(true);

}

}

3.shuffle



shuffle就是map和reduce之间的过程。包括了两端的combine和partition。

它比較难以理解,由于我们摸不着。看不到它。它仅仅是理论存在的。并且确实存在,它属于mapreduce的框架。编程的时候。我们用不到它,它属于mapreduce框架。具体能够看通过实例让你真正明确mapreduce---填空式、分布(切割)编程

3.1shuffle的作用是

Map的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后。通过OutputFormat,进行输出

shuffle阶段的主要函数是fetchOutputs(),这个函数的功能就是将map阶段的输出,copy到reduce 节点本地。

MapReduce中combine、partition、shuffle的作用是什么的更多相关文章

  1. MapReduce中的Shuffle和Sort分析

    MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据.第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme ...

  2. Hadoop : MapReduce中的Shuffle和Sort分析

    地址 MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据.第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Sch ...

  3. 关于MapReduce中自定义Combine类(一)

    MRJobConfig      public static fina COMBINE_CLASS_ATTR      属性COMBINE_CLASS_ATTR = "mapreduce.j ...

  4. Hadoop学习之路(二十三)MapReduce中的shuffle详解

    概述 1.MapReduce 中,mapper 阶段处理的数据如何传递给 reducer 阶段,是 MapReduce 框架中 最关键的一个流程,这个流程就叫 Shuffle 2.Shuffle: 数 ...

  5. MapReduce详解及shuffle阶段

    hadoop1.x和hadoop2.x的区别: Hadoop1.x版本: 内核主要由Hdfs和Mapreduce两个系统组成,其中Mapreduce是一个离线分布式计算框架,由一个JobTracker ...

  6. 在mapreduce中做分布式缓存的问题

    一.问题描述: 主要解决一个问题,就是两个表做join,两个表都够大,单个表都无法装入内存. 怎么做呢?思路就是对做join的字段做排序两个表都排序,然后针对一个表a逐行读取,希望能够在内存中加载到另 ...

  7. Mapreduce中的字符串编码

    Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序.如果对每一个数据的比较都需要先反序列化,对性能影响极大. RawComparator的作用就不言而喻,能够直接 ...

  8. Spark中的Spark Shuffle详解

    Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程.shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过s ...

  9. hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

    https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spar ...

随机推荐

  1. Linux 操作系统启动流程

    1.加载bios bios中包含的硬件CPU 内存 硬盘等相关信息 2.读取MBR 读取完bios信息之后,计算机会查找bios制定的硬盘MBR引导扇区,将其内容复制到 0x7c00 地址所在的物理内 ...

  2. js手动定时清除localStorage

    <script type="text/javascript"> // 假设要保存变量 a 的值,过期时间为 3600秒 // 保存值 var obj = new Obj ...

  3. springboot启动嵌入式tomcat报错找不到jar包,关键字:FileNotFoundException,derbyLocale_cs.jar,StandardJarScanner.scan

    异常: java.io.FileNotFoundException: /Users/lanhuajian/.m2/repository/org/apache/derby/derby/10.13.1.1 ...

  4. oracle存储过程中使用execute immediate执行sql报ora-01031权限不足的问题

    oracle存储过程中使用execute immediate执行sql报ora-01031权限不足的问题 学习了:http://blog.csdn.net/royzhang7/article/deta ...

  5. android 读取xml

    在有些应用中,有一点小数据.直接存储在XML就是.实现较为简单, 1.xml文件放入asset目录.结构如: <?xml version="1.0" encoding=&qu ...

  6. SEO分享:关于SEO的十个问题

    想写的幽默一点,幽默细胞太少,想写的专业一点,又不够专业,结果就出现了这篇不伦不类的怪文,望海涵! 导读:前面写过一篇类似的文章,受到的评价好坏都有吧.有人说讲的没有实质性的内容,有些人抱怨回答的太过 ...

  7. HTML5中x-webkit-speech语音输入功能

    如今各大站点都在搜索框中增加了语音输入功能,只是眼下仅仅有Chrome 11及以上版本号才支持. 能够用chrome浏览器在这里试试效果,点击话筒就可以: 实现起来也很easy,为input加入名为 ...

  8. 箭头函数普通函数this

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  9. Handler.post与View.post的区别

    Android的线程分UI线程与非UI线程两类.而Handler是非UI线程向UI线程传递消息的桥梁. 除了非常常用sendMessage之外,Handler也提供了post(Runnable...) ...

  10. [ZJOJ2014] 力 解题报告 (FFT)

    题目链接: https://www.luogu.org/problemnew/show/P3338 题目: 给出$n$个数$q_i$,令$F_j=\sum_{i<j}\frac{q_iq_j}{ ...