一、Map阶段:
  a. 文件切片之后,每一个切片对应一个MapTask

  b. 在MapTask中,默认按行读取,每读取一行,就调用一次map方法

  c. map方法在执行的时候会将结果(这个结果中已经包含了分区信息)写到MapTask自带的缓冲区中。注意:每一个MapTask都会自带一个缓冲区
  d. 当数据放到缓冲区中之后,数据在缓冲区中会进行分区(partition)、排序(sort)(扩展:在缓冲区中排序使用的排序算法是快速排序)。如果指定了合并类(combine),数据还会进行combine
  e. 缓冲区是维系在内存中,默认是100M
  f. 当缓冲区的使用达到指定条件(溢写阈值默认是0.8,即当缓冲区使用达到80%的时候会产生溢写)之后,MapTask会将这个缓冲区中的数据溢写(spill)到磁盘上产生溢写文件。后续的结果会继续写到缓冲区中。每一次溢写都会产生一个新的溢写文件
  g. 如果产生了多个溢写文件,那么会将多个溢写文件合并(merge)成1个final out文件。如果溢写之后,后续结果放入缓冲区中但是没有达到溢写阈值,而数据又处理完成,那么MapTask会将溢写文件中的结果和缓冲区的结果直接合并(merge)到最后的final out文件中

  h. 在merge过程中,结果会再次进行分区和排序,所以final out文件是整体分好区并且排好序
  i. 如果指定了合并类(Combiner),并且溢写文件的个数>=3个,那么在merge过程中会自动进行一次combine
  j. 注意问题:
     i. 溢写不一定产生
     ii. 溢写与否与输入的切片大小是没有直接关系
     iii. 溢写文件的大小要考虑序列化因素
     iv. 缓冲区本质上是一个字节数组,这个字节数组在底层做了改变,使缓冲区形成了一个环形的缓冲区。设置成环形的目的是为了减少寻址
     v. 溢写阈值的作用是为了减少阻塞
 二、Reduce阶段:
  a. 每一个ReduceTask都会启动fetch线程去MapTask中抓取当前要处理的分区的数据
  b. ReduceTask会将抓取过来的数据暂时放到文件中存储,从每一个MapTask中抓取的数据都会对应一个小文件
  c. ReduceTask会将这些小文件去合并(merge)成一个文件,在merge过程中,数据会进行排序 - 将局部有序变成整体有序 - merge过程中的排序使用的排序算法是归并排序
  d. merge完成之后,ReduceTask会将相同的键对应的值放到一块产生一个迭代器,这个过程从称之为分组(group)
  e. 每一个键调用一次reduce方法,reduce方法将结果写到HDFS上
  f. 注意问题:
     i. 默认fetch线程的数量为5
     ii. fetch线程通过HTTP请求的方式去抓取数据
     iii. merge因子默认为10,表示每10个小文件合成一个大文件
     iv. ReduceTask阈值默认为0.05,即当有5%的MapTask执行结束,就启动ReduceTask开始抓取数据
 三、Shuffle调优:
  a. 调大缓冲区,实际生产环境中一般将这个值调为250~400M
  b. 调大溢写阈值,可以减少和磁盘的交互但是同时增大了阻塞的概率
  c. 实际生产环境中,尽量增加Combine过程
  d. 可以对final out文件进行压缩。这种方案是对网络资源的一种取舍。如果网络资源紧张可以考虑这种方式
  e. 增多fetch线程的数量
  f. 增大merge因子 - 不建议
  g. 减小ReduceTask的阈值

推荐使用的方法是acde

mapreduce的shufflue过程的更多相关文章

  1. MapReduce的Shuffle过程介绍

    MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌.混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好.MapReduce中的Shuffle更像是洗牌的逆过程,把一 ...

  2. 第2节 mapreduce深入学习:7、MapReduce的规约过程combiner

    第2节 mapreduce深入学习:7.MapReduce的规约过程combiner 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 ...

  3. MapReduce:Shuffle过程详解

    1.Map任务处理 1.1 读取HDFS中的文件.每一行解析成一个<k,v>.每一个键值对调用一次map函数.                <0,hello you>   & ...

  4. MapReduce的InputFormat过程的学习

    转自:http://blog.csdn.net/androidlushangderen/article/details/41114259 昨天经过几个小时的学习,把MapReduce的第一个阶段的过程 ...

  5. Hadoop MapReduce的Shuffle过程

    一.概述 理解Hadoop的Shuffle过程是一个大数据工程师必须的,笔者自己将学习笔记记录下来,以便以后方便复习查看. 二. MapReduce确保每个reducer的输入都是按键排序的.系统执行 ...

  6. MapReduce 的 shuffle 过程中经历了几次 sort ?

    shuffle 是从map产生输出到reduce的消化输入的整个过程. 排序贯穿于Map任务和Reduce任务,是MapReduce非常重要的一环,排序操作属于MapReduce计算框架的默认行为,不 ...

  7. MapReduce简单执行过程及Wordcount案例

    MapReducer运行过程 以单词统计为案例. 假如现在文件中存在如下内容: aa bb aa cc dd aa 当然,这是小文件,如果文件大小较大时会将文件进行 "切片" ,此 ...

  8. mapReduce的shuffle过程

    http://www.jianshu.com/p/c97ff0ab5f49 总结shuffle 过程: map端的shuffle: (1)map端产生数据,放入内存buffer中: (2)buffer ...

  9. Mapreduce中maptask过程详解

    一.Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的: 2.一个split切分分配一个maprask来并行处理: 3.默认情况下,split切分的大小等 ...

随机推荐

  1. 【SQL-自动生成编号】按规则自动生成单据编号 以及并发问题_使用触发器、函数 等

    描述:每种单据新建时,自动生成它的单据编号. 规则如:固定码+日期+流水号 (ABC1603180001) 方法一:触发器 触发器的缺点是,执行了sql之后才看到编码. 测试:流水号不能超过最大数,否 ...

  2. 【leetcode】1272. Remove Interval

    题目如下: Given a sorted list of disjoint intervals, each interval intervals[i] = [a, b] represents the ...

  3. 几种最常见的js array操作方法及示例

    1. 序言 操作array可谓前端最基础的工作,无论是从接口中取的数据,还是筛选数据,或者是添加按钮权限等等操作,array都是绕不开的东西.array的操作很多,初学者十分容易搞混,不是很熟练的情况 ...

  4. EasyUI DataGrid undefined处理

    处理undefined var val = null; console.log(val); console.log(val || ""); val = undefined; con ...

  5. B/S结构下上传下载大文件(1G以上)的解决方案

    以ASP.NET Core WebAPI 作后端 API ,用 Vue 构建前端页面,用 Axios 从前端访问后端 API ,包括文件的上传和下载. 准备文件上传的API #region 文件上传  ...

  6. BZOJ 4154: [Ipsc2015]Generating Synergy KDtree+dfs序

    多组数据真tm恶心~ 把 $dfs$序和深度分别看作横纵坐标,然后用 $KDtree$ 数点就可以了~ #include <cstdio> #include <cstring> ...

  7. HGOI 20190822 OCWA提高组模拟赛二

    Problem A 快递 根节点为$1$ , 含有$n$个节点的树,每一条边都有一段开放的时间$[s_i,e_i]$,和经过需要的时间. 有$q$组询问,每一次在时刻$t_i$出发从根节点出发走到第$ ...

  8. sklearn可实现的函数或者功能可分为如下几个方面

    1.分类算法2.回归算法3.聚类算法4.降维算法5.模型优化6.文本预处理 其中分类算法和回归算法又叫监督学习,聚类算法和降维算法又叫非监督学习 分类算法 1 2 3 4 5 6 7 8 9 10 1 ...

  9. beta week 1/2 Scrum立会报告+燃尽图 03

    本次作业要求参见:edu.cnblogs.com/campus/nenu/2019fall/homework/9913 一.小组情况组长:贺敬文组员:彭思雨 王志文 位军营 徐丽君队名:胜利点 二.S ...

  10. MyExcel 2.2.0 版本发布,支持公式导出

    MyExcel,是一个集导入.导出.加密Excel等多项功能的java工具包. 相关链接 MyExcel 的详细介绍:点击查看 MyExcel 的下载地址:点击下载