一. MapReduce执行过程

  1. 分片:

    (1)对输入文件进行逻辑分片,划分split(split大小等于hdfs的block大小)

    (2)每个split分片文件会发往不同的Mapper节点进行分散处理
  2. mapper任务

    (3)每个Mapper节点拿到split分片后,创建RecordReader,把分片数据解析成键值对<k1,v1>,每对<k1,v1>进行一次map操作形成<k2,v2>,此时的<k2,v2>存储在内存的环形缓冲区内(默认100m),当缓冲区达到80%时,就会把这个缓冲区内的全部数据写到linux磁盘文件中,形成溢写文件

    (4)溢写的过程不是简单的磁盘拷贝,溢写线程会把缓冲区中的数据进行分组partition,一个分区交给一个reducer处理。分组过程默认由HashPartitioner类处理
    1. reducer=(key.hashCode() & Integer.MAX_VALUE) % numReduceTasks

(5)溢写线程把分组后的数据进行排序,形成分区内的有序数据,如果设置了combiner,此时对内存中的有序数据进行规约,规约后形成溢写文件保存在磁盘上。数据全部处理后,磁盘上会有很多的溢写文件,mapper端对每个分区内的文件不断地分组排序再规约,形成一个大的分区文件(规约是为了减小生成文件的大小,减少发往reduce的传输量)

3. reducer任务

(6)每个reducer负责处理一个分区文件的数据,所以reducer回去所有mapper节点,拷贝属于自己的分区文件。拷贝的文件先放到内存中,当超过缓冲区限制,reducer再次对数据进行排序合并,形成跨多个mapper的<k2,list<v2>>,再将其写入到磁盘中形成reduce的溢写文件

(7)随着溢写文件的增多,后台线程会把这些文件合并成一个大的有序的文件,之后reducer对该大文件的<k2,list<v2>>进行reduce函数处理

(8)把处理后的文件上传到hdfs中

二. hadoop序列化

  1. 实现Writable接口

    (1)序列化:readFields(DataInput)

    (2)反序列化:write(DataOutput)序列化

    hadoop的数据类型是在网络上传输的序列化数据 ,底层用Dataoutput写出到网络上 ,DataInput读取网络传来的字节流

    hadoop中已经定义好的数据类型只能写出基本类型,要传输自定义的类,就要自定义序列化类型
    1. // DataOutputStream写出int
    2. public final void writeInt(int v) throws IOException {
    3. out.write((v >>> 24) & 0xFF);
    4. out.write((v >>> 16) & 0xFF);
    5. out.write((v >>> 8) & 0xFF);
    6. out.write((v >>> 0) & 0xFF);
    7. incCount(4);
    8. }
    9. // DataInputStream读取int
    10. public final int readInt() throws IOException {
    11. int ch1 = in.read();
    12. int ch2 = in.read();
    13. int ch3 = in.read();
    14. int ch4 = in.read();
    15. if ((ch1 | ch2 | ch3 | ch4) < 0)
    16. throw new EOFException();
    17. return ((ch1 << 24) + (ch2 << 16) + (ch3 << 8) + (ch4 << 0));
    18. }

  1. 2. hadoop的序列化比java自定义的序列化效率高 ?
  2. java自定义的序列化在序列化一个对象时,要把这个对象的父类关系全部序列化出去, hadoop的序列化,DataInput只序列化基本数据类型,减小网络传输的字节数
  3. 1hadoop自定义序列化要加上空参构造,反射获取对象时要用到,否则报no method异常
  4. 2Reduce时的context.write(k3,v3)会调用TextOutputFormatwriteObj(),里面会调用toString()方法
  5. 3)序列化类的属性要给出setter方法,当序列化类没有toString()方法时,reduce输出文件中hashcode的值是一样的,证明是一个对象,一个对象输出的值却不一样,说明reduce中也在不停调用序列化类的set方法赋值
  6. ###三. Mapreduce二级排序
  7. 二级排序:hadoopMapper产生的数据发往reducer之前进行一次排序,按照k2排序,如果还希望按照v2排序,怎么做呢?
  8. 1. Reduceriterator获取所有值进行内存排序,这样可能会导致内存溢出
  9. 2. 重新设计k2,利用hadoop进行排序
  10. 1k2设计成对象,对象内包含value属性
  11. ```java
  12. public class SecondarySortingTemperatureMapper extends Mapper<LongWritable, Text, TemperaturePair, NullWritable> {
  13. private TemperaturePair temperaturePair = new TemperaturePair();
  14. private NullWritable nullValue = NullWritable.get();
  15. private static final int MISSING = 9999;
  16. @Override
  17. protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
  18. String line = value.toString();
  19. String yearMonth = line.substring(15, 21);
  20. int tempStartPosition = 87;
  21. if (line.charAt(tempStartPosition) == '+') {
  22. tempStartPosition += 1;
  23. }
  24. int temp = Integer.parseInt(line.substring(tempStartPosition, 92));
  25. if (temp != MISSING) {
  26. temperaturePair.setYearMonth(yearMonth);
  27. temperaturePair.setTemperature(temp);
  28. context.write(temperaturePair, nullValue);
  29. }
  30. }
  31. }
  32. ```
  33. 2k2实现实现WritableComparable接口,重写k2compareTo方法,先比较k属性,k属性相同时比较v属性
  34. ```java
  35. public int compareTo(TemperaturePair temperaturePair) {
  36. int compareValue = this.yearMonth.compareTo(temperaturePair.getYearMonth());
  37. if (compareValue == 0) {
  38. compareValue = temperature.compareTo(temperaturePair.getTemperature());
  39. }
  40. return compareValue;
  41. }
  42. ```
  43. 3k2重新设计后,还要保证详设计前一样,逻辑上相同的k要发到同一个reducer上,因此,重写partitionercompare方法,return k2.k.hascode()%numPartitions
  44. ```java
  45. public class TemperaturePartitioner extends Partitioner<TemperaturePair, NullWritable>{
  46. @Override
  47. public int getPartition(TemperaturePair temperaturePair, NullWritable nullWritable, int numPartitions) {
  48. return temperaturePair.getYearMonth().hashCode() % numPartitions;
  49. }
  50. }
  51. ```
  52. 4)数据抵达reducer时,会按照key分组,为了保证向重新设计k2前一样,分组时仅按照原始k分组,因此重写分组比较器
  53. ```java
  54. public class YearMonthGroupingComparator extends WritableComparator {
  55. public YearMonthGroupingComparator() {
  56. super(TemperaturePair.class, true);
  57. }
  58. @Override
  59. public int compare(WritableComparable tp1, WritableComparable tp2) {
  60. TemperaturePair temperaturePair = (TemperaturePair) tp1;
  61. TemperaturePair temperaturePair2 = (TemperaturePair) tp2;
  62. return temperaturePair.getYearMonth().compareTo(temperaturePair2.getYearMonth());
  63. }
  64. }
  65. ```
  66. ###四.yarn的执行流程
  67. ![](http://images2015.cnblogs.com/blog/695743/201603/695743-20160326134511964-1270933307.png)

mapreduce计算框架的更多相关文章

  1. (第4篇)hadoop之魂--mapreduce计算框架,让收集的数据产生价值

    摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利 给大家赠送一套ha ...

  2. Big Data(七)MapReduce计算框架

    二.计算向数据移动如何实现? Hadoop1.x(已经淘汰): hdfs暴露数据的位置 1)资源管理 2)任务调度 角色:JobTracker&TaskTracker JobTracker: ...

  3. MR 01 - MapReduce 计算框架入门

    目录 1 - 什么是 MapReduce 2 - MapReduce 的设计思想 2.1 如何海量数据:分而治之 2.2 方便开发使用:隐藏系统层细节 2.3 构建抽象模型:Map 和 Reduce ...

  4. Big Data(七)MapReduce计算框架(PPT截图)

    一.为什么叫MapReduce? Map是以一条记录为单位映射 Reduce是分组计算

  5. MapReduce计算框架的核心编程思想

    @ 目录 概念 MapReduce中常用的组件 概念 Job(作业) : 一个MapReduce程序称为一个Job. MRAppMaster(MR任务的主节点): 一个Job在运行时,会先启动一个进程 ...

  6. Hadoop中MapReduce计算框架以及HDFS可以干点啥

    我准备学习用hadoop来实现下面的过程: 词频统计 存储海量的视频数据 倒排索引 数据去重 数据排序 聚类分析 ============= 先写这么多

  7. 开源图计算框架GraphLab介绍

    GraphLab介绍 GraphLab 是由CMU(卡内基梅隆大学)的Select 实验室在2010 年提出的一个基于图像处理模型的开源图计算框架.框架使用C++语言开发实现. 该框架是面向机器学习( ...

  8. 从计算框架MapReduce看Hadoop1.0和2.0的区别

    一.1.0版本 主要由两部分组成:编程模型和运行时环境. 编程模型为用户提供易用的编程接口,用户只需编写串行程序实现函数来实现一个分布式程序,其他如节点间的通信.节点失效,数据切分等,则由运行时环境完 ...

  9. Spark Streaming实时计算框架介绍

    随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在 ...

随机推荐

  1. PHP实例开发(1)PHP站内搜索

    PHP站内搜索:多关键字.加亮显示 1.SQL语句中的模糊查找 $sql = "SELECT * FROM `message` WHERE `content`like '%$k[0]%' a ...

  2. mysql修改root密码和设置权限

    整理了以下四种在MySQL中修改root密码的方法,可能对大家有所帮助! 方法1: 用SET PASSWORD命令 mysql -u root mysql> SET PASSWORD FOR ' ...

  3. P235 实战练习(集合类)

    将1~100之间的所有正整数存放在一个List集合中,并将集合中索引位置是10的对象从集合中移除. package org.hanqi.practise; import java.util.*; pu ...

  4. php MySQL数据库操作类源代码

    php MySQL数据库操作类源代码: <?php class MySQL{ private $host; //服务器地址 private $name; //登录账号 private $pwd; ...

  5. kuangbin_ShortPath E (POJ 1860)

    第一次做判环 然后RE了五次 死在了奇怪的点 memset(vis, 0, sizeof dis); memset(dis, 0, sizeof vis); 什么鬼?? 什么鬼?? 其实代码本身还是不 ...

  6. mave之:java的web项目必须要的三个jar的pom形式

    jsp-api javax.servlet-api jstl <!-- jsp --> <dependency> <groupId>javax.servlet< ...

  7. Scala vs. Groovy vs. Clojure

    http://stackoverflow.com/questions/1314732/scala-vs-groovy-vs-clojure Groovy is a dynamically typed ...

  8. perform-two-phase-commits/

    https://docs.mongodb.com/manual/tutorial/perform-two-phase-commits/

  9. http协议传输二进制数据以及对输入流(php://input)和http请求的理解

    1.index.php <?php $data=file_get_contents('./a.jpg'); $opts = array('http' => array( 'method' ...

  10. page cache 与 page buffer 转

    page cache 与 page buffer 标签: cachebuffer磁盘treelinux脚本 2012-05-07 20:47 2905人阅读 评论(0) 收藏 举报  分类: 内核编程 ...