谷歌技术"三宝"之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!
谷歌在03到06年间连续发表了三篇非常有影响力的文章,各自是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。
那么这篇博客就来介绍一下MapReduce。
1. MapReduce是干啥的

GFS和BigTable已经为我们提供了高性能、高并发的服务,可是并行编程可不是全部程序猿都玩得转的活儿,假设我们的应用本身不能并发,那GFS、BigTable也都是没有意义的。MapReduce的伟大之处就在于让不熟悉并行编程的程序猿也能充分发挥分布式系统的威力。
简单概括的说,MapReduce是将一个大作业拆分为多个小作业的框架(大作业和小作业应该本质是一样的,仅仅是规模不同),用户须要做的就是决定拆成多少份,以及定义作业本身。
以下用一个贯穿全文的样例来解释MapReduce是怎样工作的。
2. 样例:统计词频
假设我想统计下过去10年计算机论文出现最多的几个单词,看看大家都在研究些什么,那我收集好论文后,该怎么办呢?
方法一:我能够写一个小程序,把全部论文按顺序遍历一遍,统计每个遇到的单词的出现次数,最后就能够知道哪几个单词最热门了。
这样的方法在数据集比較小时,是非常有效的,并且实现最简单,用来解决问题非常合适。
方法二:写一个多线程程序,并发遍历论文。
这个问题理论上是能够高度并发的,由于统计一个文件时不会影响统计还有一个文件。当我们的机器是多核或者多处理器,方法二肯定例如法一高效。可是写一个多线程程序要例如法一困难多了,我们必须自己同步共享数据,例如要防止两个线程反复统计文件。
方法三:把作业交给多个计算机去完毕。
我们能够用法一的程序,部署到N台机器上去,然后把论文集分成N份,一台机器跑一个作业。这种方法跑得足够快,可是部署起来非常麻烦,我们要人工把程序copy到别的机器,要人工把论文集分开,最痛苦的是还要把N个执行结果进行整合(当然我们也能够再写一个程序)。
方法四:让MapReduce来帮帮我们吧!
MapReduce本质上就是方法三,可是怎样拆分文件集,怎样copy程序,怎样整合结果这些都是框架定义好的。我们仅仅要定义好这个任务(用户程序),其他都交给MapReduce。
在介绍MapReduce怎样工作之前,先讲讲两个核心函数map和reduce以及MapReduce的伪代码。
3. map函数和reduce函数
map函数和reduce函数是交给用户实现的,这两个函数定义了任务本身。
- map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce框架会将map函数产生的中间键值对里键同样的值传递给一个reduce函数。
- reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常仅仅有一个或零个值)。
统计词频的MapReduce函数的核心代码很简短,主要就是实现这两个函数。
map(String key, String value):
// key: document name
// value: document contents
for each word w in value:
EmitIntermediate(w, "1"); reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
在统计词频的样例里,map函数接受的键是文件名称,值是文件的内容,map逐个遍历单词,每遇到一个单词w,就产生一个中间键值对<w, "1">,这表示单词w咱又找到了一个;MapReduce将键同样(都是单词w)的键值对传给reduce函数,这样reduce函数接受的键就是单词w,值是一串"1"(最主要的实现是这样,但能够优化),个数等于键为w的键值对的个数,然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置,存储在底层的分布式存储系统(GFS或HDFS)。
4. MapReduce是怎样工作的

上图是论文里给出的流程图。一切都是从最上方的user program開始的,user program链接了MapReduce库,实现了最主要的Map函数和Reduce函数。图中运行的顺序都用数字标记了。
- MapReduce库先把user program的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB,如图左方所看到的分成了split0~4;然后使用fork将用户进程复制到集群内其他机器上。
- user program的副本中有一个称为master,其余称为worker,master是负责调度的,为空暇worker分配作业(Map作业或者Reduce作业),worker的数量也是能够由用户指定的。
- 被分配了Map作业的worker,開始读取相应分片的输入数据,Map作业数量是由M决定的,和split一一相应;Map作业从输入数据中抽取出键值对,每一个键值对都作为參数传递给map函数,map函数产生的中间键值对被缓存在内存中。
- 缓存的中间键值对会被定期写入本地磁盘,并且被分为R个区,R的大小是由用户定义的,将来每一个区会相应一个Reduce作业;这些中间键值对的位置会被通报给master,master负责将信息转发给Reduce worker。
- master通知分配了Reduce作业的worker它负责的分区在什么位置(肯定不止一个地方,每一个Map作业产生的中间键值对都可能映射到全部R个不同分区),当Reduce worker把全部它负责的中间键值对都读过来后,先对它们进行排序,使得同样键的键值对聚集在一起。由于不同的键可能会映射到同一个分区也就是同一个Reduce作业(谁让分区少呢),所以排序是必须的。
- reduce worker遍历排序后的中间键值对,对于每一个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会加入到这个分区的输出文件里。
- 当全部的Map和Reduce作业都完毕了,master唤醒正版的user program,MapReduce函数调用返回user program的代码。
全部运行完成后,MapReduce输出放在了R个分区的输出文件里(分别相应一个Reduce作业)。用户通常并不须要合并这R个文件,而是将其作为输入交给还有一个MapReduce程序处理。整个过程中,输入数据是来自底层分布式文件系统(GFS)的,中间数据是放在本地文件系统的,终于输出数据是写入底层分布式文件系统(GFS)的。并且我们要注意Map/Reduce作业和map/reduce函数的差别:Map作业处理一个输入数据的分片,可能须要调用多次map函数来处理每一个输入键值对;Reduce作业处理一个分区的中间键值对,期间要对每一个不同的键调用一次reduce函数,Reduce作业终于也相应一个输出文件。
我更喜欢把流程分为三个阶段。第一阶段是准备阶段,包含1、2,主角是MapReduce库,完毕拆分作业和拷贝用户程序等任务;第二阶段是执行阶段,包含3、4、5、6,主角是用户定义的map和reduce函数,每一个小作业都独立执行着;第三阶段是扫尾阶段,这时作业已经完毕,作业结果被放在输出文件中,就看用户想怎么处理这些输出了。
5. 词频是怎么统计出来的
结合第四节,我们就能够知道第三节的代码是怎样工作的了。如果咱们定义M=5,R=3,而且有6台机器,一台master。

这幅图描写叙述了MapReduce怎样处理词频统计。因为map worker数量不够,首先处理了分片1、3、4,并产生中间键值对;当全部中间值都准备好了,Reduce作业就開始读取相应分区,并输出统计结果。
6. 用户的权利
- an input reader。这个函数会将输入分为M个部分,而且定义了怎样从数据中抽取最初的键值对,比方词频的样例中定义文件名称和文件内容是键值对。
- a partition function。这个函数用于将map函数产生的中间键值对映射到一个分区里去,最简单的实现就是将键求哈希再对R取模。
- a compare function。这个函数用于Reduce作业排序,这个函数定义了键的大小关系。
- an output writer。负责将结果写入底层分布式文件系统。
- a combiner function。实际就是reduce函数,这是用于前面提到的优化的,比方统计词频时,假设每一个<w, "1">要读一次,由于reduce和map通常不在一台机器,很浪费时间,所以能够在map执行的地方先执行一次combiner,这样reduce仅仅须要读一次<w, "n">了。
- map和reduce函数就不多说了。
7. MapReduce的实现
參考文献
谷歌技术"三宝"之MapReduce的更多相关文章
- [转载] 谷歌技术"三宝"之MapReduce
转载自http://blog.csdn.net/opennaive/article/details/7514146 江湖传说永流传:谷歌技术有"三宝",GFS.MapReduce和 ...
- 谷歌技术"三宝"之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS.MapReduce和大表(BigTable)! 谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年 ...
- 谷歌技术"三宝"之MapReduce(转)
原文:http://blog.csdn.net/opennaive/article/details/7514146 目录 MapReduce是干啥的 例子统计词频 map函数和reduce函数 M ...
- 谷歌技术"三宝"之MapReduce(转)
原文地址:http://blog.csdn.net/opennaive/article/details/7514146 江湖传说永流传:谷歌技术有"三宝",GFS.MapReduc ...
- (zz) 谷歌技术"三宝"之BigTable
006年的OSDI有两篇google的论文,分别是BigTable和Chubby.Chubby是一个分布式锁服务,基于Paxos算法:BigTable是一个用于管理结构化数据的分布式存储系统,构建在G ...
- [转载] 谷歌技术"三宝"之BigTable
转载自http://blog.csdn.net/opennaive/article/details/7532589 2006年的OSDI有两篇google的论文,分别是BigTable和Chubby. ...
- 谷歌技术"三宝"之BigTable
转自:https://blog.csdn.net/OpenNaive/article/details/7532589 2006年的OSDI有两篇google的论文,分别是BigTable和Chubby ...
- 谷歌技术"三宝"之BigTable(转)
原文地址: http://blog.csdn.net/opennaive/article/details/7532589 2006年的OSDI有两篇google的论文,分别是BigTable和Ch ...
- [转载] 谷歌技术"三宝"之谷歌文件系统
转载自http://blog.csdn.net/opennaive/article/details/7483523 题记:初学分布式文件系统,写篇博客加深点印象.GFS的特点是使用一堆廉价的商用计算机 ...
随机推荐
- XML序列化成对象
这个是和ALM上传测试结果结合使用的//把xml序列化成对象以及把对象序列化成xml using System; using System.Data; using System.Configurati ...
- js获取字符串最后一个字符代码
方法一:运用String对象下的charAt方法 charAt() 方法可返回指定位置的字符. 代码如下 复制代码 str.charAt(str.length – 1) 请注意,JavaScript ...
- git 换行符问题
git 换行符问题 在windows环境中 对于autocrlf = false 不会激发 关于换行符的处理 对于autocrlf = true 会在提交是将LF替换成CRLF 切出时时CRLF 对于 ...
- gcc都做了什么优化
直接上程序: setjmp和longjmp是处理函数嵌套调用的,goto语句不能跨越函数,所以不选择goto. #include <setjmp.h> int setjmp(jmp_buf ...
- 数往知来 ASP.NET 表单的提交_url传值_重定向 <十八>
一.表单提交时注意 如果是以get方式提交数据的时候,在接收时是用QueryString方式进行接收 如果是以post请求数据时在接收时是用Form进行接收 为什么么要这样做呢?我们用Request[ ...
- 设计模式 适配器-Adapter
适配器模式:将一个类的接口,转换成客户期望的另一个接口.适配器让原本接口不兼容的类可以合作无间. 直接上图.下面是对象适配器的类图.由于Java不支持多继承.所以这是Java的适配器实现方式. 结合H ...
- WMI使用的WIN32_类库名
WMI使用的WIN32_类库名 包括:硬件类.操作系统类.安装应用程序类.WMI服务管理类.性能计数器类1.硬件类冷却类别Win32_Fan--风扇Win32_HeatPipe--热管Win32_Re ...
- BestCoder Round #88
传送门:BestCoder Round #88 分析: A题统计字符串中连续字串全为q的个数,预处理以下或加个cnt就好了: 代码: #include <cstdio> #include ...
- 第二百二十四天 how can I 坚持
实物商品兑换,有点小难搞,其实也没什么难的,也就那些东西,不过好像这就是我设计实现的,干起来挺来劲的. 供暖了,挺暖和的,哈哈. 小米耳机(炫彩版)到了.感觉挺好的. 还在纠结到底要买哪种颜色的羽绒服 ...
- 第二百二十三天 how can I 坚持
今天双十一,过得有点郁闷,昨天鱼死了不说,抢的羽绒服今天才发现是棉服,结果又买了个海澜之家的,搞的今天凌晨买的东西全都写退了,除了小米耳机. 光棍节,好纠结.爱要怎么说出口,你才不会拒绝啊,愁人啊. ...