MapReduce 计算模型

前言

　　本文讲解Hadoop中的编程及计算模型MapReduce，并将给出在MapReduce模型下编程的基本套路。

模型架构

　　在Hadoop中，用于执行计算任务(MapReduce任务)的机器有两个角色：一个是JobTracker，一个是TaskTracker，前者用于管理和调度工作，后者用于执行工作。

　　一般来说，一个Hadoop集群由一个JobTracker和N个TaskTracker构成。

执行流程

　　每次计算任务都可以分为两个阶段，Map阶段和Reduce阶段。

　　其中，Map阶段接收一组键值对模式<key, Value>的输入并产生同样是键值对模式<key, Value>的中间输出；

　　Reduce阶段负责接收Map产生的中间输出<key, Value>，然后对这个结果进行处理并输出结果。

　　这里举个很简单的例子，有一个程序用来统计文本中各个单词出现的个数，那么每个Map任务可以负责提取出文本中的所有单词并产生n个<word, 1>这样的输出；

　　而Reduce任务可以负责对这些中间输出做出处理，转换成<word, n> 这样的输出。

　　多说一句，Map产生的中间输出是直接放在本地磁盘，job完成后就会删除了。而Reduce产生的最终结果才会存放在Hdfs上。

编码框架说明

　　编码涉及到一些细节，建议结合具体代码进行分析，这里只给出一个框架性的说明。推荐阅读经典的wordcount程序。

　　1. 导入Hadoop开发需要用到的一些包

　　2. 定义一个需要用到分布式计算的类

　　3. 在此类中添加Map类，并使该类继承Mapper抽象类，然后实现该抽象类中的map方法。

　　4. 在此类中添加Reduce类，并使该类继承Reducer抽象类，然后实现该抽象类中的reduce方法。

　　5. 在类中定义一个成员函数并做如下操作：

　　　　a. 定义一个Job对象负责job调度

　　　　b. 往a中定义的job对象中注入2中定义的分布式类 (setJarByClass)

　　　　c. 定义分布式任务的名字 (setJobName)

　　　　d. 往a中定义的job对象中注入输出的key和value的类型 (setOutPutKeyClass，setOutPutKeyClass)

　　　　e. 往a中定义的job对象中注入3和4中定义的Map，Reduce类

　　　　f. 往a中定义的job对象中注入数据切分格式类 (setInputFormat，setOutputFormat)

　　　　g. 往a中定义的job对象中注入输出的路径地址 (setInputPaths，setOutputPath)

　　　　h. 启动计算任务 (waitForCompletion)

　　　　i. 返回布尔类型的执行结果

　　6. 在主函数中调用上述方法 (命令行方式)

运行方法

　　1. 执行以下格式的命令以编译分布式计算类

 javac -classpath "hadoop目录下的core.jar" -d "结果输出目录" "分布式类文件名"

　　2. 执行以下格式的命令将该类打包成jar

 jar -cvf "结果文件名(后缀.jar)" -C "目标目录" "结果输出目录"

　　3. 执行以下格式的命令将输入文件存入HDFS文件系统 (该命令将在HDFS上创建一个名为input的目录并将用户目录下input目录内前缀为file的文件导入进去)：

 dfs -mkdir input
 dfs -put ~/input/file0* input

　　4. 执行以下格式的命令启动hadoop程序 (下面的参数一和二一般分别指输入和输出目录)

 jar "分布式类jar包" "分布式类名" 参数一，参数二......

MapReduce的数据流和控制流

　　下面来讨论一下Hadoop程序的数据流和控制流的关系，首先请看下图：

　　首先，由Master，也即JobTracker负责分派任务到下面的各个worker，也即TaskTracker。

　　某个worker在执行的时候，会返回进度报告，master负责记录进度的进行状况。

　　若某个worker失败，那么master会分派这个执行失败的任务给新的worker。

程序优化技巧

　　MapReduce程序的优化主要集中在两个方面：一个是运算性能方面的优化；另一个是IO操作方面的优化。

　　具体体现在以下的几个环节之上：

　　　　1. 任务调度

　　　　　　a. 尽量选择空闲节点进行计算

　　　　　　b. 尽量把任务分配给InputSplit所在机器

　　　　2. 数据预处理与InputSplit的大小

　　　　　　尽量处理少量的大数据；而不是大量的小数据。因此可以在处理前对数据进行一次预处理，将数据进行合并。

　　　　　　如果自己懒得合并，可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。

　　　　3. Map和Reduce任务的数量

　　　　　　Map任务槽中任务的数量需要参考Map的运行时间，而Reduce任务的数量则只需要参考Map槽中的任务数，一般是0.95或1.75倍。

　　　　4. 使用Combine函数

　　　　　　该函数用于合并本地的数据，可以大大减少网络消耗。具体请参考函数手册。

　　　　5. 压缩

　　　　　　可以对一些中间数据进行压缩处理，达到减少网络消耗的目的。

　　　　6. 自定义comparator

　　　　　　可以自定义数据类型实现更复杂的目的。

小结

　　本文大致讲解了Hadoop的编程模型MapReduce，并大致介绍了如何在这个框架下进行简单的程序开发。

　　更复杂的框架剖析以及Hadoop高级程序开发，将在以后的文章中进行细致的探讨。

MapReduce 计算模型的更多相关文章

MapReduce计算模型
MapReduce计算模型 MapReduce两个重要角色:JobTracker和TaskTracker. MapReduce Job 每个任务初始化一个Job,没个Job划分为两个阶段:Map和 ...
MapReduce计算模型的优化
MapReduce 计算模型的优化涉及了方方面面的内容,但是主要集中在两个方面:一是计算性能方面的优化:二是I/O操作方面的优化.这其中,又包含六个方面的内容. 1.任务调度任务调度是Hadoop中 ...
MapReduce计算模型二
之前写过关于Hadoop方面的MapReduce框架的文章MapReduce框架Hadoop应用(一) 介绍了MapReduce的模型和Hadoop下的MapReduce框架,此文章将进一步介绍map ...
【CDN+】 Spark入门---Handoop 中的MapReduce计算模型
前言项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://s ...
第四篇：MapReduce计算模型
前言本文讲解Hadoop中的编程及计算模型MapReduce,并将给出在MapReduce模型下编程的基本套路. 模型架构在Hadoop中,用于执行计算任务(MapReduce任务)的机器有两个角 ...
【MapReduce】二、MapReduce编程模型
通过前面的实例,可以基本了解MapReduce对于少量输入数据是如何工作的,但是MapReduce主要用于面向大规模数据集的并行计算.所以,还需要重点了解MapReduce的并行编程模型和运行机制 ...
【MapReduce】经常使用计算模型具体解释
前一阵子參加炼数成金的MapReduce培训,培训中的作业样例比較有代表性,用于解释问题再好只是了. 有一本国外的有关MR的教材,比較有用.点此下载. 一.MapReduce应用场景 MR能解决什么问 ...
重要 | Spark和MapReduce的对比，不仅仅是计算模型？
[前言:笔者将分上下篇文章进行阐述Spark和MapReduce的对比,首篇侧重于"宏观"上的对比,更多的是笔者总结的针对"相对于MapReduce我们为什么选择Spar ...
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...

随机推荐

识别低效率的SQL语句
1.返回行与逻辑读的比率 CREATE TABLE t as select * from dba_objects; --CREATE INDEX idx ON t (object_id); ---例1 ...
所思所想 js模板引擎
将服务端生成的HTML标记的事情交给了客户端来做那么服务端的职责是什么呢? 职责就是处理最终的返回结果,纯数据 handler
批量插入使用SqlBulkCopy
对于大量的数据插入,我们可以使用批量插入功能来提升性能,例如.
mysql启动报错
查看报错日志: 131023 15:02:59 [ERROR] Can't start server: Bind on TCP/IP port: No such file or directory13 ...
在Html中使用JavaScript的几点小结
前言越发的意识到JS这门作为前端语言的重要性.所以下定决心这段时间在项目允许的情况下花大量时间在学习JS上.争取让自己的前端功底深厚一点. 小结在包含外部js文件时,必须将src属性设置为指向相应 ...
Scala 入门——Eclipse开发环境搭建
Come From: http://lidrema.blog.163.com/blog/static/209702148201461145859142/ Scala: 一种类似java的编程.集成了面 ...
[Js]面向对象的选项卡实例
中间过渡环节:把面向过程的程序,改写成面向对象的形式 <html xmlns="http://www.w3.org/1999/xhtml"><head>&l ...
OL/SQL编程练习
create or replace procedure pr_first is --一个变量 v_a ) := '总有一天我的生命将走到尽头'; --一个常量 c_b constant ) := '而 ...
NOIP 2000解题报告
题目简单,思路很快就有,关键是代码实现能力,大概3个多小时完成.第一题:题目大意:将一个10进制数N转换成-B进制数 (负进制转换):B<=20, N(-32768<=N<=3276 ...
C#操作Access数据库(创建&修改结构)
本文转自:http://www.cnblogs.com/liyugang/archive/2012/11/17/2775393.html 想要在程序中控制Access,不是数据,而是Access数据库 ...

MapReduce 计算模型

MapReduce 计算模型的更多相关文章

随机推荐

热门专题