04 MapReduce原理介绍

大数据实战（上）

# MapReduce原理介绍

大纲：

* Mapreduce介绍

* MapReduce2运行原理

* shuffle及排序

定义

* Mapreduce 最早是由google公司研究提出的一种免息nag大规模数据处理的并行计算模型和方法。是hadoop面向大数据并行处理的计算模型、框架和平台

* Mapreduce是一个计算框架，既然是做计算的框架，那么表现形式就是有个输入（input），mapreduce操作这个输入（input），通过本身定义好的计算模型，得到一个输出（output），这个输出就是我们所需要的结果。

第一部分：MapReduce工作原理

MapReduce 角色
•Client ：作业提交发起者。
•JobTracker: 初始化作业，分配作业，与TaskTracker通信，协调整个作业。
•TaskTracker：保持JobTracker通信，在分配的数据片段上执行MapReduce任务。
提交作业
•在作业提交之前，需要对作业进行配置
•程序代码，主要是自己书写的MapReduce程序。
•输入输出路径
•其他配置，如输出压缩等。
•配置完成后，通过JobClinet来提交
作业的初始化
•客户端提交完成后，JobTracker会将作业加入队列，然后进行调度，默认的调度方法是FIFO调试方式。
任务的分配
•TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的。
•TaskTracker会主动向JobTracker询问是否有作业要做，如果自己可以做，那么就会申请到作业任务，这个任务可以使Map也可能是Reduce任务。
任务的执行
•申请到任务后，TaskTracker会做如下事情：
  •拷贝代码到本地
  •拷贝任务的信息到本地
  •启动JVM运行任务
状态与任务的更新
•任务在运行过程中，首先会将自己的状态汇报给TaskTracker，然后由TaskTracker汇总告之JobTracker。
•任务进度是通过计数器来实现的。

作业的完成
•JobTracker是在接受到最后一个任务运行完成后，才会将任务标志为成功。
•此时会做删除中间结果等善后处理工作。

第二部分：错误处理
任务失败

•MapReduce在设计之出，就假象任务会失败，所以做了很多工作，来保证容错。
•一种情况: 子任务失败
•另一种情况：子任务的JVM突然退出
•任务的挂起
TaskTracker失败
•TaskTracker崩溃后会停止向Jobtracker发送心跳信息。
•Jobtracker会将该TaskTracker从等待的任务池中移除。并将该TaskTracker上的任务，移动到其他地方去重新运行。
•TaskTracker可以被JobTracker放入到黑名单，即使它没有失败。

JobTracker失败
•单点故障，Hadoop新的0.23版本解决了这个问题。
第三部分：作业调度
FIFO
Hadoop 中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业

公平调度器
为任务分配资源的方法，其目的是随着时间的推移，让提交的作业获取等量的集群共享资源，让用户公平地共享集群。具体做法是：当集群上只有一个任务在运行时，它将使用整个集群，当有其他作业提交时，系统会将TaskTracker节点空间的时间片分配给这些新的作业，并保证每个任务都得到大概等量的CPU时间。

容量调度器

支持多个队列，每个队列可配置一定的资源量，每个队列采用 FIFO 调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：按照作业优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制。但是不可剥夺式
配置公平调度器
1.修改mapred-stie.xml 加入如下内容

<property>

      <name>mapred.jobtracker.taskScheduler</name>

      <value>org.apache.hadoop.mapred.FairScheduler</value>

       </property>

       <property>

      <name>mapred.fairscheduler.allocation.file</name>

      <value>/opt/hadoop/conf/allocations.xml</value>

       </property>

        <property>

     <name>mapred.fairscheduler.poolnameproperty</name>

      <value>pool.name</value>

       </property>

2 . 在 Hadoop conf 下创建
allocations.xml
内容为

 <?xml version="1.0"?>

        <alloctions>

        </alloctions>

样例：

<pool name="sample_pool">

<minMaps>5</minMaps>

<minReduces>5</minReduces>

<weight>2.0</weight>

</pool>

<user name="sample_user">

<maxRunningJobs>6</maxRunningJobs>

</user>

<userMaxJobsDefault>3</userMaxJobsDefault>

3. 重启 JobTracker
4. 访问 http://jobTracker:50030/scheduler , 查看 FariScheduler 的 UI
5 . 提交任务测试

第四部分：Shuffle与排序

Mapreduce 的 map 结束后，把数据重新组织，作为 reduce 阶段的输入，该过程称之为 shuffle--- 洗牌。
而数据在 Map 与 Reduce 端都会做排序。
Map

• Map 的输出是由collector控制的
• 我们从collect函数入手
Reduce
•reduce的Shuffle过程，分成三个阶段：复制Map输出、排序合并、reduce处理。
•主要代码在reduce的 run函数

Shuffle优化

•首先Hadoop的Shuffle在某些情况并不是最优的，例如，如果需要对2集合合并，那么其实排序操作时不需要的。
•我们可以通过调整参数来优化Shuffle
•Map端
•io.sort.mb
•Reduce端
•mapred.job.reduce.input.buffer.percent

第五部分：任务的执行时的一些特有的概念
推测式执行
•每一道作业的任务都有运行时间，而由于机器的异构性，可能会会造成某些任务会比所有任务的平均运行时间要慢很多。
•这时MapReduce会尝试在其他机器上重启慢的任务。为了是任务快速运行完成。
•该属性默认是启用的。

JVM重用

•启动JVM是一个比较耗时的工作，所以在MapReduce中有JVM重用的机制。
•条件是统一个作业的任务。
•可以通过mapred.job.reuse.jvm.num.tasks定义重用次数，如果属性是-1那么为无限制。

跳过坏记录
•数据的一些记录不符合规范，处理时抛出异常，MapReduce可以讲次记录标为坏记录。重启任务时会跳过该记录。
•默认情况下该属性是关闭的。

任务执行环境
•Hadoop为Map与Reduce任务提供运行环境。
•如：Map可以知道自己的处理的文件
•问题：多个任务可能会同时写一个文件
•解决办法：将输出写到任务的临时文件夹。目录为：{mapred.out. put.dir}/temp/${mapred.task.id}

第六部分：MapReduce的类型与格式
类型
•MapReduce的类型使用键值对作为输入类型(key,value)•输入输出的数据类型是通过输入输出的格式进行设定的。
输入格式
•输入分片与记录
•文件输入
•文本输入
•二进制输入
•多文件输入
•数据库格式的输入

输入分片与记录
•Hadoop通过InputSplit表示分片。
•一个分片并不是数据本身，而是对分片数据的引用。
•InputFormat接口负责生成分片

<ignore_js_op>

文件输入
•实现类：FileInputFormat
•通过文件作为输入源的基类。
•四个方法：
•addInputPath()
•addInputPaths()
•setInputPath()
•setInputPaths()
•FileInputFormat会按HDFS块的大小来分割文件
•避免分割
•继承FileInputFormat 重载isSplitable()
•return false

文本输入

•实现类：TextInputFormat
•TextInputFormat 是默认的输入格式。
•包括：
•KeyValueTextInputFormat
•NLineInputFormat
•XML
•输入分片与HDFS块之间的关系
•TextInputFormat的某一条记录可能跨块存在

二进制输入

•实现类：SequenceFileInputFormat
•处理二进制数据
•包括：
•SequenceFileAsTextInputFormat
•SequenceFileAsBinaryInputFormat

多文件输入

•实现类：MultipleInputs
•处理多种文件输入
•包括：
•addInputPath

数据库输入

•实现类：DBInputFormat
•注意使用，因为连接过多，数据库无法承受。

输出格式
•文本输出
•二进制输出
•多文件输出
•数据库格式的输出
文本输出
•实现类：TextOutputFormat
•默认的输出方式
• 以 "key \t value" 的方式输出
二进制输出

•基类： SequenceFileOutputFormat
•实现类： SequenceFileAsTextOutputFormat
MapFileOutputFormat
SequenceFileAsBinaryOutputFormat

多文件输出

•MutipleOutputFormat•MutipleOutputs
•两者的不同在于MutipleOutputs可以产生不同类型的输出
数据库格式输出• 实现类
DBOutputFormat

04 MapReduce原理介绍的更多相关文章

Hadoop介绍-3.HDFS介绍和YARN原理介绍
一. HDFS介绍: Hadoop2介绍 HDFS概述 HDFS读写流程 1. Hadoop2介绍 Hadoop是Apache软件基金会旗下的一个分布式系统基础架构.Hadoop2的框架最核心的 ...
03 Yarn 原理介绍
Yarn 原理介绍大纲: Hadoop 架构介绍 YARN 产生的背景 YARN 基础架构及原理 Hadoop的1.X架构的介绍在1.x中的NameNodes只可能有一个,虽然可以通过Se ...
大数据运算模型 MapReduce 原理
大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计 ...
Java 集合系列 04 LinkedList详细介绍(源码解析)和使用示例
java 集合系列目录: Java 集合系列 01 总体框架 Java 集合系列 02 Collection架构 Java 集合系列 03 ArrayList详细介绍(源码解析)和使用示例 Java ...
MapReduce原理及其主要实现平台分析
原文:http://www.infotech.ac.cn/article/2012/1003-3513-28-2-60.html MapReduce原理及其主要实现平台分析亢丽芸, 王效岳, 白如江 ...
MapReduce 原理与 Python 实践
MapReduce 原理与 Python 实践 1. MapReduce 原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解 Hadoop 的 MapReduce ...
Android Animation学习（一） Property Animation原理介绍和API简介
Android Animation学习(一) Property Animation介绍 Android Animation Android framework提供了两种动画系统: property a ...
[转]MySQL主从复制原理介绍
MySQL主从复制原理介绍一.复制的原理 MySQL 复制基于主服务器在二进制日志中跟踪所有对数据库的更改(更新.删除等等).每个从服务器从主服务器接收主服务器已经记录到其二进制日志的保存的更新,以 ...
分布式文件系统FastDFS原理介绍
在生产中我们一般希望文件系统能帮我们解决以下问题,如:1.超大数据存储:2.数据高可用(冗余备份):3.读/写高性能:4.海量数据计算.最好还得支持多平台多语言,支持高并发. 由于单台服务器无法满足以 ...

随机推荐

shell 脚本之 shell 练习题汇总
整理了一些 shell 相关的练习题,记录到这里. 1. 请按照这样的日期格式 xxxx-xx-xx 每日生成一个文件,例如:今天生成的文件为 2013-09-23.log, 并且把磁盘的使用情况写到 ...
win10打开IL DASM步骤:
MMORPG大型游戏设计与开发（服务器 AI 逻辑设定和状态结点）
人工智能(AI)中往往都会有这么一个问题,那就是我要做什么?我该怎么做?我需要什么?所以这里所谓的智能就是赋予AI对象的判断力,以及它根据判断得到的相应反应.就好比,你去商店买东西,钱够别人才卖给你, ...
Python的文件操作
文件操作,顾名思义,就是对磁盘上已经存在的文件进行各种操作,文本文件就是读和写. 1. 文件的操作流程 (1)打开文件,得到文件句柄并赋值给一个变量 (2)通过句柄对文件进行操作 (3)关闭文件现有 ...
1877: [SDOI2009]晨跑
1877: [SDOI2009]晨跑 Time Limit: 4 Sec Memory Limit: 64 MBSubmit: 2007 Solved: 1085[Submit][Status][ ...
10大H5前端框架
作为一名做为在前端死缠烂打6年并且懒到不行的攻城士,这几年我还是阅过很多同门从知名到很知名的各种前端框架,本来想拿15-20个框架来分享一下,但在跟几个前辈讨教写文章的技巧时果断被无情的打击了,所以这 ...
ASP.NET MVC VS2010中更改默认调试浏览器
在Visual Studio 2010(RC)中右键点击 .aspx 页面已不复存在"browse with"菜单项.那要如何修改调试时使用的默认浏览器呢? 默认情况下,VS会使用 ...
[网站公告]数据库服务器IOPS跑满造成网站不能正常访问
今年下午13:20-14:20左右,突增的访问量引发数据库服务器(阿里云RDS)IOPS跑满,造成大量请求执行缓慢,从而严重影响了网站的正常访问,给大家带来很大的麻烦,望大家谅解! 在出现故障时,当我 ...
编译自己的Ubuntu内核
很多时候我们在使用Ubuntu的时候,想修改一下内核配置,然后编译,安装到Ubuntu中.这也是进行Ubuntu内核开发的前提. 获取当前Ubuntu对应代码有很多方法可以获得Ubuntu内核代码, ...
java日志学习笔记
一．日志家族 Log4j一开始就很强大,在jdk自带日志系统之前,apache就曾经尝试把log4j划为java的一部分,不知为何没能成功,sun还是用了自己很弱的日志系统.为了兼容各个日志系统,ap ...

04 MapReduce原理介绍

04 MapReduce原理介绍的更多相关文章

随机推荐

热门专题