hadoop作业调度策略
一个Mapreduce作业是通过JobClient向master的JobTasker提交的(JobTasker一直在等待JobClient通过RPC协议提交作业),JobTasker接到JobClient的请求后把其加入作业队列中。
DataNode节点的TaskTracker一直通过RPC(RPC--远程过程调用协议它是一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议)向JobTasker发送heartbeat询问有没有任务做,如果有则让其派发任务过来,TaskTracker在其本地发起Task,执行任务。
作业调度策略有三种:
1、默认调度算法--FIFO队列策略:
hadoop默认调度器,它先按照作业优先级的高低,再按照到达时间的先后来选择被执行的作业。
优点:调度算法简单,JobTracker工作负担轻。
缺点:忽略了不同作业的需求差异。例如如果类似于对海量数据进行统计分析的作业长期占据计算资源,那么在其后提交的交互型作业有可能迟迟得不到处理,从而影响用户体验。
2、计算能力调度算法Capacity Scheduler(Yahoo 开发)
(1)Capacity Scheduler 中可以定义多个作业队列,作业提交时将直接放入到一个队列中,每个队列中采用的调度策略是FIFO算法。
(2)每个队列都可以通过配置获得一定数量的task tracker资源用于处理map/reduce操作,调度算法将按照配置文件为队列分配相应的计算资源量。
(3)该调度默认情况下不支持优先级,但是可以在配置文件中开启此选项,如果支持优先级,调度算法就是带有优先级的FIFO。
(4)不支持优先级抢占,一旦一个工作开始执行,在执行完之前它的资源不会被高优先级作业所抢占。
(5)对队列中同一用户提交的作业能够获得的资源百分比进行了限制以使同属于一用户的作业不能出现独占资源的情况.
Capacity Scheduler内存管理
Capacity Scheduler能有效地对hadoop集群的内存资源进行管理,以支持内存密集型应用。作业对内存资源需求高时,调度算法将把该作业的相关任务分配到内存资源充足的task tracker上。在作业选择过程中,Capacity Scheduler会检查空闲的tasktracker上的内存资源是否满足作业要求。Tasktracker上的空闲资源(内存)数量值可以通过tasktracker的内存资源总量减去当前已经使用的内存数量得到,而后者包含在tasktracker向jobtracker发送的周期性心跳信息中。
配置Capacity Scheduler
步骤:
1、cd $HADOOP_HOME/contrib/capacity-scheduler
2、cp hadoop-capacity-scheduler-0.20.2-cdh3u2.jar $HADOOP_HOME/lib
配置$HADOOP_HOME/conf下的map-site.xml,增加
<property>
<name>map.jobtracker.taskScheduler</name>
3 <value>org.apache.hadoop.mapred.CapacityTaskScheduler</value> <!--这个就是刚才拷过去的jar里面的类-->
</property>
<property>
<name>mapred.queue.names</name> <!--定义队列-->
<value>default,bean</value><!--两个队列一个default(默认)bean队列-->
</property> <!--修改$HADOOP_HOME/conf下cpacity-scheduler.xml增加属性如下-->
<property>
<name>mapred.capacity-scheduler.queue.default.capacity</name>
<vaule>100</value>
</property>
<property>
<name>mapred.capacity-schelduler.queue.bean.capacity</name>
<value>100</value>
</property>
选择队列(执行前需要做):
set mapred.job.queue.name = bean(对列的名字)
3、公平份额调度算法Fair Scheduler(Facebook开发)
Facebook要处理生产型作业(数据统计分析,hive)、大批处理作业(数据挖掘、机器学习)、小型交互型作业(hive查询),不同用户提交的作业型在计算时间、存储空间、数据流量和相应时间上都有不同需求。为使hadoop mapreduce框架能够应对多种类型作业并行执行,使得用户具有良好的体验,Facebook公司提出该算法。
Fair Scheduler调度中,只有一个作业执行时,它将独占集群所有资源。有其他作业被提交时会有TaskTracker被释放并分配给新提交的作业,以保证所有的作业都能够获得大体相同的计算资源。
作业池:
为每一个用户建立一个作业池,用户提交的作业将会放进一个能够公平共享资源的pool(池)中,每个作业池设定了一个最低资源保障,当一个池中包含job时,它至少可以获得minmum share的资源(最低保障资源份额机制)。
池中的作业获得一定份额的资源,可以通过配置文件限制每个池中作业数量,缺省情况下,每个作业池中选择将要执行的作业的策略是FIFO策略,先按照优先级高低排序,然后再按照提交时间排序。
Deficit(赤字,不足):
Fair Scheldure为每个作业定义了一个deficit指标,Deficit是一个作业在理想情况下的获得的计算资源和实际中获得的计算资源之间的差距。Fair Scheduler会每隔几百毫秒观察每个作业有多少任务已经在这个时间间隔内执行,并将结果与它的资源份额比较,一更新该作业的deficit值。一旦有空闲的task tracker出现,首先分配给当前具有最高deficit值得作业。
例如:如果系统中存在着尚未获得最低资源保障的作业池,那么该池中的作业将会优先调度,而选择池中的作业需要根据他们的deficit来决定。这样做是为了尽可能满足作业池最低保障资源份额的限制。
配置:
cd $HADOOP_HOME/contrib/fairscheduler
cp *.jar $HADOOP_HOME/lib
注:一般版本里,lib下包含这个包
配置$HADOOP_HOME/conf下的map-site.xml,增加
<property>
<name>mapred.jobtracker.taskScheduler</name> <!--加载jar包中的类-->
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>
<property>
<name>mapred.fairscheduler.allocation.file</name>
<value>$HADOOP_HOME/conf/fair-scheduler.xml</value>
</property>
<property>
<name>mapred.queue.names</name><!--定义队列-->
<value>default,bean</value><!--两个池一个default(默认)bean池-->
</property>
<!--加上这么一个-->
<property>
15 <name>mapred.fairscheduler.preemption</name>
<value>true</value>
</property>
fair-schelduler.xml根据文件里面给的例子配置就可以了。
选择队列(执行前需要做):set mapred.job.queue.name = bean(池的名字)
注:配置可能会出错,可能是不能用$HADOOP_HOME把它改问绝对路径。
hadoop作业调度策略的更多相关文章
- 【hadoop代码笔记】hadoop作业提交之汇总
一.概述 在本篇博文中,试图通过代码了解hadoop job执行的整个流程.即用户提交的mapreduce的jar文件.输入提交到hadoop的集群,并在集群中运行.重点在代码的角度描述整个流程,有些 ...
- Hadoop作业提交之TaskTracker获取Task
[Hadoop代码笔记]Hadoop作业提交之TaskTracker获取Task 一.概要描述 在上上一篇博文和上一篇博文中分别描述了jobTracker和其服务(功能)模块初始化完成后,接收JobC ...
- Spark和Hadoop作业之间的区别
Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么在内部实现Spark和Hadoop作业模型都一样吗?答案是不对的. 熟悉Hadoop的人应该都知道 ...
- 【Hadoop代码笔记】Hadoop作业提交之TaskTracker获取Task
一.概要描述 在上上一篇博文和上一篇博文中分别描述了jobTracker和其服务(功能)模块初始化完成后,接收JobClient提交的作业,并进行初始化.本文着重描述,JobTracker如何选择作业 ...
- 大数据 --> Spark和Hadoop作业之间的区别
Spark和Hadoop作业之间的区别 熟悉Hadoop的人应该都知道,用户先编写好一个程序,我们称为Mapreduce程序,一个Mapreduce程序就是一个Job,而一个Job里面可以有一个或多个 ...
- hadoop作业调优参数整理及原理
hadoop作业调优参数整理及原理 10/22. 2013 1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并 ...
- Hadoop作业性能指标及參数调优实例 (三)Hadoop作业性能參数调优方法
作者: Shu, Alison Hadoop作业性能调优的两种场景: 一.用户观察到作业性能差,主动寻求帮助. (一)eBayEagle作业性能分析器 1. Hadoop作业性能异常指标 2. Had ...
- Hadoop作业性能指标及參数调优实例 (二)Hadoop作业性能调优7个建议
作者:Shu, Alison Hadoop作业性能调优的两种场景: 一.用户观察到作业性能差,主动寻求帮助. (一)eBayEagle作业性能分析器 1. Hadoop作业性能异常指标 2. Hado ...
- Hadoop作业JVM堆大小设置优化 [转]
前段时间,公司Hadoop集群整体的负载很高,查了一下原因,发现原来是客户端那边在每一个作业上擅自配置了很大的堆空间,从而导致集群负载很高.下面我就来讲讲怎么来现在客户端那边的JVM堆大小的设置.我们 ...
随机推荐
- 使用Metrics监控应用程序的性能
在编写应用程序的时候,通常会记录日志以便事后分析,在很多情况下是产生了问题之后,再去查看日志,是一种事后的静态分析.在很多时候,我们可能需要了解整个系统在当前,或者某一时刻运行的情况,比如当前系统中对 ...
- JS入门
1,undefined,NaN,Null,infinity 1) undefined 是undefined 类型 var a; //声明变量后不赋值 typeof 类型判断方法 console.log ...
- Linux Nano命令
Nano命令指南 今天在输命令时,无意中输入了nano,对这个命令不太熟悉,结果不知道如何才能退出,保存,赶快查了一下资料,原来是这样的啊. 打开文件与新建文件 使用nano打开或新建文件,只需键入: ...
- 新编码神器Atom使用纪要
Atom是 Github 专门为程序员推出的一个跨平台文本编辑器.她很大程度上继承了SublimeText的美,而又不仅如此.有费了蛮大力气总结了一篇关于SublimeText文章: 如何优雅地使用S ...
- Kindeditor在ThinkPHP框架下的使用
1.简单调用Kindeditor的图片上传功能: a.Html部署图片预览,记录图片上传成功之后的路径,以及上传图片点击按钮 <tr> <td>活动图片:</td> ...
- ASP.NET MVC5+EF6+EasyUI 后台管理系统(42)-工作流设计-表建立
系列目录 工作流在实际应用中还是比较广泛,网络中存在很多工作流的图形化插件,可以做到拉拽的工作流设计,非常简便,再配合第三方编辑器,可以直接生成表单,我没有刻意的浏览很多工作流的实际设计,我认为工作流 ...
- PhoneGap/cordvoa如何添加Media插件
phonegap由2.7升级到3.7之前,只要引入一个cordova.js,就可以了.现在由于所用的插件,都需要用模块的形式进行按需加载,自然就没有以前那么安逸了. 例如,如果要在安卓平台添加一个音频 ...
- Oracle数据加载之外部表的介绍
环境: 服务端:RHEL6.4 + Oracle 11.2.0.4 目录: 一. 创建外部表 1.1 创建外部表需要的目录 1.2 创建外部表 1.3 创建外部表源文件 1.4 查询外部表 二. 加载 ...
- Oracle从文件系统迁移到ASM存储
环境:RHEL 6.4 + Oracle 11.2.0.4 需求:数据库存储由文件系统迁移到ASM 数据库存储迁移到ASM磁盘组 1.1 编辑参数文件指定新的控制文件路径 1.2 启动数据库到nomo ...
- 原创:MD5 32位加密软件
网站后台数据库切勿使用明文保存密码,否则一旦黑客拿下你的Webshell,后果不堪设想. 网站后台密码加密大多数采用的就是MD5算法加密.今天给大家送一个本人用c#简单编写的MD5 32位加密程序,虽 ...