hadoop运行原理之Job运行(二) Job提交及初始化

　　本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程。

　　以WordCount为例，以前的程序都是通过JobClient.runJob()方法来提交Job，但是现在大多用Job.waitForCompletion(true)方法来提交(true表示打印出运行过程)，但其本质都是一样的，最终都是通过JobClient的submitJobInternal()方法来提交Job。

 public

   RunningJob submitJobInternal(final JobConf job

                                ) throws FileNotFoundException,

                                         ClassNotFoundException,

                                         InterruptedException,

                                         IOException {

           ......

           //为job获取id

         JobID jobId = jobSubmitClient.getNewJobId();

         Path submitJobDir = new Path(jobStagingArea, jobId.toString());

         jobCopy.set("mapreduce.job.dir", submitJobDir.toString());

         ......

         printTokens(jobId, jobCopy.getCredentials());

           status = jobSubmitClient.submitJob(

               jobId, submitJobDir.toString(), jobCopy.getCredentials());

         ......

   }

　　submitJobInternal()方法主要完成这么几个工作：得到授权令牌；检查输出目录是否已存在；创建分片；将运行作业所需的资源复制到JobTracker的文件系统中。最后调用JobSubmissionProtocol的submitJob()方法。JobTracker继承了JobSubmissionProtocol接口，所以会转到去调用JobTracker的submitJob()方法。

　　这里插一句，JobSubmissionProtocol接口有两个默认的子类实现：JobTracker和LocalJobRunner。如果使用的是hadoop的默认配置，在mapred-site.xml文件中{mapred.job.tracker}的值为“local”，此时JobSubmissionProtocol的实现使用LocalJobRunner，即使用的是本地文件系统。否则的话使用HDFS。这也是为什么我们在mapred-site.xml文件要配置{mapred.job.tracker}的原因。具体使用哪个JobSubmissionProtocol是在JobClient初始化的时候决定的。从下面JobClient的init()方法代码可以清晰的看到：

 public void init(JobConf conf) throws IOException {

     String tracker = conf.get("mapred.job.tracker", "local");

     tasklogtimeout = conf.getInt(

       TASKLOG_PULL_TIMEOUT_KEY, DEFAULT_TASKLOG_TIMEOUT);

     this.ugi = UserGroupInformation.getCurrentUser();

     if ("local".equals(tracker)) {

       conf.setNumMapTasks(1);

       this.jobSubmitClient = new LocalJobRunner(conf);

     } else {

       this.rpcJobSubmitClient =

           createRPCProxy(JobTracker.getAddress(conf), conf);

       this.jobSubmitClient = createProxy(this.rpcJobSubmitClient, conf);

     }

   }

　　接着上面来说。看看JobTracker的submit()方法。

  JobStatus submitJob(JobID jobId, String jobSubmitDir,

       UserGroupInformation ugi, Credentials ts, boolean recovered)

       throws IOException {

     // Check for safe-mode

     checkSafeMode();

     ......

     JobInProgress job = null;    

     // Submit the job

       JobStatus status;

       try {

         status = addJob(jobId, job);

       } catch (IOException ioe) {

         LOG.info("Job " + jobId + " submission failed!", ioe);

         status = job.getStatus();

         status.setFailureInfo(StringUtils.stringifyException(ioe));

         failJob(job);

         throw ioe;

       }

       return status;

     }

   }

　　首先检查系统是否处于安全模式。接着会创建JobInProgress对象，这个对象用来维护了Job运行的相关信息。然后来检查用户的队列权限，并检查内存的使用情况。最终调用addJob()方法来提交job。

     synchronized (jobs) {

       synchronized (taskScheduler) {

         jobs.put(job.getProfile().getJobID(), job);

         for (JobInProgressListener listener : jobInProgressListeners) {

           listener.jobAdded(job);

         }

       }

     }

　　这里用到了观察者模式，jobInProgressListeners是一个List<JobInProgressListener>，代表所有已注册的监听器(观察者)。listener.jobAdded(job);这行语句则分别调用所有已注册listener的jobAdded()方法。从上一篇文章中我们知道，最主要的listener就是EagerTaskInitializationListener和JobQueueJobInProgressListener。

　　JobQueueJobInProgressListener的jobAdded()方法比较简单，只有一句话，就是先构建一个JobSchedulingInfo对象，然后和JobInProgress对应起来放入jobQueue中。

　　下面是EagerTaskInitializationListener的jobAdded()方法：

   @Override

   public void jobAdded(JobInProgress job) {

     synchronized (jobInitQueue) {

       jobInitQueue.add(job);

       resortInitQueue();

       jobInitQueue.notifyAll();

     }

   }

　　这个方法首先将job(JobInProgress)添加到初始化队列中；然后按优先级对队列中的JobInProcess进行排序。上篇文件中介绍了，在EagerTaskInitializationListener中监听到有新的job(JobInProgress)添加到队列中时，则会对其进行初始化工作。最终是调用了JobTracker的initJob()方法来对job进行初始化，这部分过程在下一篇文章再写吧。

　　最后画个流程图来总结一下，画的不好，将就看一下吧。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：《Hadoop技术内幕深入理解MapReduce架构设计与实现原理》董西成

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/3999128.html

hadoop运行原理之Job运行(二) Job提交及初始化的更多相关文章

hadoop运行原理之Job运行(三) TaskTracker的启动及初始化
与JobTracker一样,TaskTracker也有main()方法,然后以线程的方式启动(继承了Runnable接口).main()方法中主要包含两步:一是创建一个TaskTracker对象:二是 ...
hadoop运行原理之Job运行(五) 任务调度
接着上篇来说.hadoop首先调度辅助型task(job-cleanup task.task-cleanup task和job-setup task),这是由JobTracker来完成的:但对于计算型 ...
hadoop运行原理之Job运行(四) JobTracker端心跳机制分析
接着上篇来说,TaskTracker端的transmitHeartBeat()方法通过RPC调用JobTracker端的heartbeat()方法来接收心跳并返回心跳应答.还是先看看这张图,对它的大概 ...
hadoop运行原理之Job运行(一) JobTracker启动及初始化
这部分的计划是这样的,首先解释JobTracker的启动过程和作业从JobClient提交到JobTracker上:然后分析TaskTracker和heartbeat:最后将整个流程debug一遍来加 ...
Web程序的运行原理及流程（二）
其实WEB服务器和WEB应用服务器这两个概念特别容易混淆可以理解为装了不同软件(服务)的两台计算机(服务器)吧先对两个概念做一个简单介绍了解了基本的概念我们再用两个典型的例子做一下比较(建立 ...
Camel运行原理分析
Camel运行原理分析以一个简单的例子说明一下camel的运行原理,例子本身很简单,目的就是将一个目录下的文件搬运到另一个文件夹,处理器只是将文件(限于文本文件)的内容打印到控制台,首先代码如下: ...
Python逆向（一）—— 前言及Python运行原理
一.前言最近在学习Python逆向相关,涉及到python字节码的阅读,编译及反汇编一些问题.经过长时间的学习有了一些眉目,为了方便大家交流,特地将学习过程整理,形成了这篇专题.专题对python逆 ...
jmeter的运行原理和测试计划要素
jmeter运行原理 1.jmeter运行在JVM虚拟机上,jmeter是以线程的方式运行的. 2.jmeter通过线程组来驱动多个线程,运行测试脚本对被测试服务器发起负载,每一个负载机上够可以运行多 ...
Python+Appium运行简单的demo，你需要理解Appium运行原理！
坚持原创输出,点击蓝字关注我吧作者:清菡博客:oschina.云+社区.知乎等各大平台都有. 目录一.Appium 的理念四个原则 1.Web-Selenium 的运行原理 2.Appium ...

随机推荐

PHP之十六个魔术方法详解
https://segmentfault.com/a/1190000007250604#articleHeader14
中国电信大亚DP607光猫破解，设置路由，wifi！关闭远程管理，改连接限制，SN码查询！
破解方法:以下为破解方法(一):1.进入192.168.1.12.用户名输入anonymous,密码不用,登陆3.输入网址192.168.1.1/backupsettings.conf4.用记事本打开 ...
Qt之重写QLabel类
在mylabel.h 文件中#ifndef MYLABEL_H#define MYLABEL_H #include <QLabel>/*重新实现QLabel类,使其支持点击事件*/clas ...
Android MimeType的用法和几种类型
关于MIME TYPE描述多用途互联网邮件扩展(MIME,Multipurpose Internet Mail Extensions)是一个互联网标准,它扩展了电子邮件标准,使其能够支持非ASCII ...
单点登录 SSO 的实现原理
单点登录SSO(Single Sign On)说得简单点就是在一个多系统共存的环境下,用户在一处登录后,就不用在其他系统中登录,也就是用户的一次登录能得到其他所有系统的信任. 单点登录在大型网站里使用 ...
RF--换行
引自:http://blog.csdn.net/lvtingting2007/article/details/42173991
实现一个名为Person的类和它的子类Employee，Employee有两个子类Faculty 和Staff。
(1)Person类中的属性有:姓名name(String类型),地址address(String类型), 电话号码telphone(String类型)和电子邮件地址email(String类型): ...
nwjs如何打包文件为exe文件并修改exe图标
1.下载nw.js,如果是SDK版的可以调试页面,打包后可不可以调试还没有试,不是SDK的话没有调试选项,试了一下,打包后的文件也一样调试不了. 2.把要打包的文件和package.json都放在nw ...
response.setContentType设置
response.setContentType(MIME)的作用是使客户端浏览器,区分不同种类的数据,并根据不同的MIME调用浏览器内不同的程序嵌入模块来处理相应的数据.例如web浏览器就是通过MIM ...
Android自定义View自定义属性
1.引言对于自定义属性,大家肯定都不陌生,遵循以下几步,就可以实现: 自定义一个CustomView(extends View )类编写values/attrs.xml,在其中编写styleabl ...

hadoop运行原理之Job运行(二) Job提交及初始化

hadoop运行原理之Job运行(二) Job提交及初始化的更多相关文章

随机推荐

热门专题