Hadoop Mapreduce的shuffle过程详解

1、map task读取数据时默认调用TextInputFormat的成员RecoreReader，RecoreReader调用自己的read()方法，进行逐行读取，返回一个key、value;

2、返回的key、value交给自定义的map方法，输出的context.write(key,value)，再交给内部的OutputCollecter会不断写入一个环形缓冲区

　　(就是一个数组，内存空间默认100M)；

3、随着不断的写入，一般只占默认内存的80%，剩下的空间需要在溢出之前进行分区以及根据key进行快速排序，spiller就是负责将分过区并排好序的数据

　　写入本地文件，溢出一次就会产生一个文件，这些文件存放于map task的工作目录，在溢出前可以使用combiner对数据进行合并，combiner会提高整体的

　　运算速度，但是有可能会对最终结果造成影响，所以使用时需考虑清楚；

4、map task在本地产生的多个文件需要进行归并排序成一个大文件，也就是map task的最终文件，这个合并的过程称为merge，这个合并过程也可以使用combiner；

5、reduce task会将各个map task产生的相应分区的数据下载到本地磁盘工作目录，合并文件并对这些数据进行归并排序；

6、通过调用GroupingComparaor(key,nextk)识别出key相同的一组数据；

7、然后一组相同的key调用一次reduce方法，context.write(k,v)通过OutputFormat写入最终的文件。

以上从第三步到第六步就是shuffle的过程。

Hadoop Mapreduce的shuffle过程详解的更多相关文章

MapReduce：Shuffle过程详解
1.Map任务处理 1.1 读取HDFS中的文件.每一行解析成一个<k,v>.每一个键值对调用一次map函数. <0,hello you> & ...
MapReduce的shuffle过程详解
[学习笔记] 结果分析:shuffle的英文是洗牌,混洗的意思,洗牌就是越乱越好的意思.当在集群的情况下是这样的,假如有三个map节点和三个reduce节点,一号reduce节点的数据会来自于三个ma ...
hadoop: Shuffle过程详解 (转载)
原文地址:http://langyu.iteye.com/blog/992916 另一篇博文:http://www.cnblogs.com/gwgyk/p/3997849.html Shuffle过程 ...
Hadoop MapReduce的Shuffle过程
一.概述理解Hadoop的Shuffle过程是一个大数据工程师必须的,笔者自己将学习笔记记录下来,以便以后方便复习查看. 二. MapReduce确保每个reducer的输入都是按键排序的.系统执行 ...
[Hadoop] Sqoop安装过程详解
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可 ...
Mapreduce中maptask过程详解
一.Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的: 2.一个split切分分配一个maprask来并行处理: 3.默认情况下,split切分的大小等 ...
Shuffle过程详解
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...

随机推荐

在kerberos认证过程中Active Directory的作用
LDAP介绍 1),ladp(Lightweight Directory Access Protocol),轻量级目录访问协议,提供被称为目录服务的信息服务,特别是基于X.500(构成全球分布式的目录 ...
Docker系列（一）CentOS 6.5 离线安装、不升级内核
本特安装教程特点 1.由于是离线下载,需要提前下载好需要的依赖包 2.使用的版本为Centos6.5 3.不升级内核 4.提供异常解决方案. 安装过程一.下载依赖包(使用能联网的节点) 依赖包可以自 ...
基于MATLAB搭建的DDS模型
基于MATLAB搭建的DDS模型说明: 累加器输出ufix_16_6数据,通过cast切除小数部分,在累加的过程中,带小数进行运算最后对结果进行处理,这样提高了计算精度. 关于ROM的使用: 直接设 ...
如何开发一款html5(H5)跨平台 k12动画/交互课件/游戏
flash交互课件能生动表达教学内容,也深受广大教育工作者的喜爱,但是目前flash课件只能在pc电脑平台上进行展示,且目前苹果公司已经不再支持flash各类产品,也就是后续苹果ios pc系统也已经 ...
Spring核心模块：IoC容器介绍
1.IoC容器运用的是控制反转模式. 2.IoC容器负责管理对象之间的依赖关系,并完成对象的注入. 3.在IoC设计中,会将依赖关系注入到特定组件中,其中setter注入和构造器注入是主要的注入方式. ...
微软 workflow 工作流总结
1.状态机工作流 (1)状态机工作流从state1 流转到 state2 到stateN (2) state中有执行状态和退出状态 (3) 在进入下一个步骤(state1 到 state2)前,首先会 ...
2018-2019-2 20165312《网络攻防技术》Exp4 恶意代码分析
2018-2019-2 20165312<网络攻防技术>Exp4 恶意代码分析知识点总结 1.有关schtasks schtacks的作用:安排命令和程序定期运行或在指定时间内运行.从计 ...
AD中修改OU下面用户的属性
第一种方法可行: get-ADuser -searchbase "ou=Wireless,dc=lstech,dc=com" -filter * | set-ADuser -Giv ...
idea中使用github
转载:https://www.cnblogs.com/javabg/p/7987755.html 1.先安装git插件,本机安装git在C:\InstallSoftWare\Git 2. 在Idea ...
Mysql 多表数据拼接插入及子查询结果集随机取一条
最近遇到一个测试数据的需求,需要往一个表中插入4个来源的数据. 往orders 表中插入来自 sql_person cm_user_car_model cm_sp_product_new 部分固定数 ...

Hadoop Mapreduce的shuffle过程详解

Hadoop Mapreduce的shuffle过程详解的更多相关文章

随机推荐

热门专题