Hadoop 学习之MapReduce

MapReduce充分利用了分而治之，主要就是将一个数据量比较大的作业拆分为多个小作业的框架，而用户需要做的就是决定拆成多少份，以及定义作业本身，用户所要做的操作少了又少，真是Very Good！

一．MapReduce执行流程

下面的是MapReduce的执行过程：

最上方的用户程序链接了底层的MapReduce库，并实现了最基本的Map函数和Reduce函数。

由用户来决定将任务划分为K块（这里设为5），假设为64MB，如图左方所示分成了split0~4(文件块)；然后使用fork将用户程序拷贝到集群内其它机器上。

用户程序的副本中有一个称为Master，其余称为worker，Master是负责任务调度的，为空闲worker分配作业（Map作业或Reduce作业），worker数量可由用户指定的。

被分配了Map作业的worker，开始读取对应文件块的输入数据(包含多个map函数)，从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。

缓存的中间键值对会被定期写入本地磁盘。主控进程知道Reduce的个数，比如R个（通常用户指定）。然后主控进程通常选择一个哈希函数(一致性哈希)作用于键并产生0~R-1个桶编号。Map任务输出的每个键都被哈希起作用，根据哈希结果将Map的结果存放到R个本地文件中的一个（后来每个文件都会指派一个Reduce任务）。

master通知分配了Reduce作业的worker它负责的分区在什么位置。当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行Shuffle和排序，使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业（谁让分区少呢），所以排序是必须的。

reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。

当所有的Map和Reduce作业都完成了，MapReduce函数调用返回用户程序的代码。

所有执行完毕后，MapReduce输出放在了R个分区的输出文件中（分别对应一个Reduce作业）。用户通常并不需要合并这R个文件，而是将其作为输入交给另一个MapReduce程序处理。整个过程中，输入数据是来自底层分布式文件系统（GFS）的，中间数据是放在本地文件系统的，最终输出数据是写入底层分布式文件系统（GFS）的。而且我们要注意Map/Reduce作业和map/reduce函数的区别：Map作业处理一个输入数据的分片，可能需要调用多次map函数来处理每个输入键值对；Reduce作业处理一个分区的中间键值对，期间要对每个不同的键调用一次reduce函数，Reduce作业最终也对应一个输出文件。

二．map函数和reduce函数

map函数和reduce函数是交给用户实现的，这两个函数定义了任务本身。

map函数：接受一个键值对（key-value pair>），产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数。
reduce函数：接受一个键，以及相关的一组值，将这组值进行合并产生一组规模更小的值（通常只有一个或零个值）。

统计词频的MapReduce函数的核心代码非常简短，主要就是实现这两个函数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

map(String key, String value):
// key: document name
// value: document contents
for each word w in value :
EmitIntermediate(w, "1");

reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values :
result += ParseInt(v);
Emit(AsString(result));

在统计词频的例子里，map函数接受的键是文件名，值是文件的内容，map逐个遍历单词，每遇到一个单词w，就产生一个中间键值对<w, "1">，这表示单词w咱又找到了一个。

MapReduce将键相同（都是单词w）的键值对传给reduce函数，这样reduce函数接受的键就是单词w，值是一串"1"（最基本的实现是这样，但可以优化），个数等于键为w的键值对的个数，然后将这些"1"累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置，存储在底层的分布式存储系统（GFS或HDFS）。

三．应用举例

还是以WordCount程序为例，假设有三台DataNode，每台DataNode有不一样的数据，如下表格所示：

DataNode1	DataNode2
how do you do	how old are you

经过Map函数后，生成以下键值对：

DataNode1

DataNode2

how

you

how

old

are

you

然后按照key值排序，变成以下键值对：

DataNode1

DataNode2

how

you

are

how

old

you

如果有Combiner函数的话，则把相同的key进行计算;

DataNode1

DataNode2

how

you

are

how

old

you

如果有Partition函数的话，则进行分区，分几个区就有几个Reducer同时进行运算，然后就会生成几个不一样的结果文件；默认只有一个Reducer进行工作。

这里先讲一个Reducer的情况，数据先从2个DataNode中Copy过来，然后Merge到Reducer中去：

Reducer

how

you

are

how

old

you

然后对数据按照key进行排序(Sort)，Copy，Merge，Sort过程统称为Shuffle过程：

Reducer

are

how

old

you

然后数据经过Reduce函数后，生成以下输出文件：

Reducer

are

how

old

you

到这里为止，整个MapReduce过程也就完成了。

如果有多个Reducer的话，不同的是数据会分开Copy到不同的机器中，也就是分开计算，然后Copy到每个Reducer中的数据都会经过Merge，Sort，Reduce过程，最后每个Reducer都会生成一个结果文件。

Hadoop 学习之MapReduce的更多相关文章

hadoop学习(七)----mapReduce原理以及操作过程
前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...
Hadoop学习笔记—MapReduce的理解
我不喜欢照搬书上的东西,我觉得那样写个blog没多大意义,不如直接把那本书那一页告诉大家,来得省事.我喜欢将我自己的理解.所以我会说说我对于Hadoop对大量数据进行处理的理解.如果有理解不对欢迎批评 ...
Hadoop学习之Mapreduce执行过程详解
一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...
【尚学堂·Hadoop学习】MapReduce案例2--好友推荐
案例描述根据好友列表,推荐好友的好友数据集 tom hello hadoop cat world hadoop hello hive cat tom hive mr hive hello hive ...
【尚学堂·Hadoop学习】MapReduce案例1--天气
案例描述找出每个月气温最高的2天数据集 -- :: 34c -- :: 38c -- :: 36c -- :: 32c -- :: 37c -- :: 23c -- :: 41c -- :: 27 ...
hadoop学习day3 mapreduce笔记
1.对于要处理的文件集合会根据设定大小将文件分块,每个文件分成多块,不是把所有文件合并再根据大小分块,每个文件的最后一块都可能比设定的大小要小块大小128m a.txt 120m 1个块 b.txt ...
Hadoop学习(3)-mapreduce快速入门加yarn的安装
mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask ...
Hadoop学习(4)-mapreduce的一些注意事项
关于mapreduce的一些注意细节如果把mapreduce程序打包放到了liux下去运行, 命令java –cp xxx.jar 主类名如果报错了,说明是缺少相关的依赖jar包用命令had ...
Hadoop学习之旅三：MapReduce
MapReduce编程模型在Google的一篇重要的论文MapReduce: Simplified Data Processing on Large Clusters中提到,Google公司有大量的 ...

随机推荐

网络编程之socket的运用
一,socket用法 socket是什么 ? Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口.在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐 ...
3D Food Printing【3D食物打印】
3D Food Printing There's new frontier in 3D printing that's begining to come into focus: food. 3D打印的 ...
win10在此处打开命令cmd
Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Directory\shell\OpenCmdHere] @="在此处打开命令 ...
SIMD数据并行（一）——向量体系结构
在计算机体系中,数据并行有两种实现路径:MIMD(Multiple Instruction Multiple Data,多指令流多数据流)和SIMD(Single Instruction Multip ...
Git更改远程仓库地址
最近在开发一个公司内部的公共组件库.老大整理了git仓库里的一些项目,其中就包括这个项目. 项目git地址变了,于是我本地的代码提交成功后push失败. 查看远程地址 git remote -v 更改 ...
责任链模式的使用-Netty ChannelPipeline和Mina IoFilterChain分析
本文来自网易云社区作者:乔安然 1. Chain of Responsiblity 定义: 使多个对象都有机会处理请求,从而避免请求的发送者和接受者之间的耦合关系.将这个对象连成一条链,并沿着这条链 ...
unity3d easytouch计算摇杆旋转角度以及摇杆八方向控制角色
在写第三人称控制的时候,一开始在电脑测试是用WASD控制角色后来需要发布到手机上,于是就加了一个摇杆键盘控制角色的代码已经写好了,角色八方向移动如果按照传统的大众思路来控制的话,是达不到我想要的 ...
C++学习006-条件运算符
这里我也理解的不咋的,大致意思应该就是根据运算符号的优先级不同来解决的条件运算符是其中一部分,而条件运算符具有右结合性,当一个表达式中出现多个条件运算符时,应该将位于最右边的问号与理他最近的冒号配 ...
Java中大数的使用与Java入门(NCPC-Intergalactic Bidding)
引入前几天参加湖南多校的比赛,其中有这样一道题,需要使用高精度,同时需要排序,如果用c++实现的话,重载运算符很麻烦,于是直接学习了一发怎样用Java写大数,同时也算是学习Java基本常识了题目 ...
C++内置类型如何存放于计算机内存中
摘要:内置类型的机器实现.字/字节/比特.内存一.概念计算机以比特序列存储数据,每个比特非0即1,如:00011011011100010110010000111011... 二.计算机以块来处理内 ...

Hadoop 学习之MapReduce

Hadoop 学习之MapReduce的更多相关文章

随机推荐

热门专题