大数据小白系列 —— MapReduce流程的深入说明

上一期我们介绍了MR的基本流程与概念，本期稍微深入了解一下这个流程，尤其是比较重要但相对较少被提及的Shuffling过程。

Mapping

上期我们说过，每一个mapper进程接收并处理一块数据，这块数据的大小默认就是一个HDFS数据块大小。

Mapper处理数据时，基于性能考虑，会使用缓存，缓存的大小有一个默认值(比如100MB)，满了之后，将会写入磁盘文件。

不过在写入之前，会在内存中进行分区(partition)，分区的数量取决于reducer的数量，实际上也就是由MR框架决定，例如上图中是3个。在每个分区内，数据会被按key进行排序，都完成之后，这些数据才会被写入磁盘。

由于缓存可能多次被占满(上图中是3次)，从而导致多次磁盘写入，产生多个磁盘文件，所以每个mapper结束之后，需要对自己所产生的多个文件进行合并(merge)，合并出来的大文件同样进行分区及分区内的排序。

通常，这个合并后的文件会被压缩，以便减少磁盘存储成本，同时也有利于降低shuffling时的网络传输成本。

这些都完成之后，这个所谓的“中间结果”文件，就静静地等待reducer来获取。

Reducing

当一个mapper完成工作之后，所有的reducer们都会收到通知，开始去取该mapper产生的数据文件，不同的reducer取走不同的分区内的数据。

所以取数这一步，并不是等到所有的mapper都完成才开始，而是某个mapper一完成，reducer就会去取。

当所有mapper都完成，所有的中间结果都已被拷贝至reducer，才开始真正的reduce操作，对取来的多个分区数据进行合并和统一排序，最终用户所写的reduce方法会作用在排序后的每一条数据上，以产生最终结果。

Shuffling

上述所说的发生在mapping与reducing之间的数据排序、合并、及拷贝的过程，包括mapping侧的一部分好reducing侧的一部分，即图中红色框出部分，统称为shuffling。

这一步骤的特点是什么？就是重磁盘IO、重网络IO，知道这一点很重要。

- END -

好了，本期就先到这儿，下一期讲讲MR的优点、局限性等内容。

喜欢本文的朋友们，欢迎长按下图关注订阅号程序员杂书馆，提前获得更多更新内容，以及领取大数据及Java经典资料。

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...
大数据小白系列——HDFS(1)
[注1:结尾有大福利!] [注2:想写一个大数据小白系列,介绍大数据生态系统中的主要成员,理解其原理,明白其用途,万一有用呢,对不对.] 大数据是什么?抛开那些高大上但笼统的说法,其实大数据说的是两件 ...
大数据小白系列——HDFS(3)
这里是大数据小白系列,这是本系列的第三篇,介绍HDFS中NameNode选举,JournalNode等概念. 上一期我们说到了为解决NameNode(下称NN)单点失败问题,HDFS中使用了双NN的机 ...
大数据小白系列——HDFS(2)
这里是大数据小白系列,这是本系列的第二篇,介绍一下HDFS中SecondaryNameNode.单点失败(SPOF).以及高可用(HA)等概念. 上一篇我们说到了大数据.分布式存储,以及HDFS中的一 ...
大数据小白系列——MR(1)
一部编程发展史就是一部程序员偷懒史,MapReduce(下称MR)同样是程序员们用来偷懒的工具. 来了一份大数据,我们写了一个程序准备分析它,需要怎么做? 老式的处理方法不行,数据量太大时,所需的时间 ...
大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

随机推荐

Django练习——图书管理系统
Django图书管理系统创建一个项目 1. django-admin startproject 图书管理 2. cmd 命令终端下创建一个app python manage.py startapp ...
php+mysql+nginx+liunx 服务搭建
安装php7相应的yum源 CentOS 7.x: # rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7 ...
nuxt.js实战之window和document对象的使用
在开发nuxt项目的时候,我们难免会使用到document来获取dom元素.如果直接在文件中使用就会报错.这是因为document是浏览器端的东西服务端并没有. 解决方法: 我们只需要在使用的地方通过 ...
《数据库MySQL》
<数据库MySQL> 一.题目要求下载附件中的world.sql.zip, 参考http://www.cnblogs.com/rocedu/p/6371315.html#SECDB,导入 ...
kafka 基础知识梳理及集群环境部署记录
一.kafka基础介绍 Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特 ...
Docker：dockerfile构建php项目 [八]
一.把项目封装成docker镜像的步骤把项目封装成docker镜像的步骤: 1.先运行一个基础容器,手动制作docker镜像 2.编写dockerfile,构建镜像 3.测试运行二.dockerf ...
Hadoop记录- Yarn scheduler队列采集
#!/bin/sh ip=10.116.100.11 port=8088 export HADOOP_HOME=/app/hadoop/bin rmstate1=$($HADOOP_HOME/yarn ...
Entity Framework入门教程（6)--- 在线场景中保存数据
在线场景中保存数据在线场景中保存实体数据是一项相当容易的任务,因为使用的是同一个context,这个context会自动跟踪所有实体发生的更改. 下图说明了在线场景中的CUD(创建,更新,删除)操作 ...
Git——如何将本地项目提交至远程仓库(第一次)
1.(先进入项目文件夹)通过命令 git init 把这个目录变成git可以管理的仓库. git init 2.把文件添加到版本库中,使用命令 git add .添加到暂存区里面去,不要忘记后面的小数 ...
Element ui select同时获取value和label的值
代码如下: <el-form-item v-if="isMD" label="业务员名称"> <el-select v-model=" ...

大数据小白系列 —— MapReduce流程的深入说明

大数据小白系列 —— MapReduce流程的深入说明的更多相关文章

随机推荐

热门专题