【Hadoop代码笔记】Hadoop作业提交之客户端作业提交

1. 概要描述
仅仅描述向Hadoop提交作业的第一步，即调用Jobclient的submitJob方法，向Hadoop提交作业。

2. 详细描述
Jobclient使用内置的JobSubmissionProtocol 实例jobSubmitClient 和JobTracker交互，最主要是提交作业、获取作业执行信息等。

在JobClient中作业提交的主要过程如下：

1）通过调用JobTracker的getNewJobId()向jobtracker请求一个新的作业ID
2）获取job的jar、输入分片、作业描述等几个路径信息，以jobId命名。
3）其中getSystemDir()是返回jobtracker的系统目录，来放置job相关的文件。包括：mapreduce的jar文件submitJarFile、分片文件submitSplitFile、作业描述文件submitJobFile
4）检查作业的输出说明，如果没有指定输出目录或输出目录以及存在，则作业不提交。参照org.apache.hadoop.mapreduce.lib.output.FileOutputFormat的checkOutputSpecs方法。如果没有指定，则抛出InvalidJobConfException，文件已经存在则抛出FileAlreadyExistsException
5）计算作业的输入分片。通过InputFormat的getSplits(job)方法获得作业的split并将split序列化封装为RawSplit。返回split数目，也即代表有多个分片有多少个map。详细参见InputFormat获取Split的方法。
6）writeNewSplits 方法把输入分片写到JobTracker的job目录下。
7）将运行作业所需的资源（包括作业jar文件，配置文件和计算所得的输入分片）复制到jobtracker的文件系统中一个以作业ID命名的目录下。
8）使用句柄JobSubmissionProtocol通过RPC远程调用的submitJob()方法，向JobTracker提交作业。JobTracker作业放入到内存队列中，由作业调度器进行调度。并初始化作业实例。JobTracker创建job成功后会给JobClient传回一个JobStatus对象用于记录job的状态信息，如执行时间、Map和Reduce任务完成的比例等。JobClient会根据这个JobStatus对象创建一个 NetworkedJob的RunningJob对象，用于定时从JobTracker获得执行过程的统计数据来监控并打印到用户的控制台。

引用下Hadoop: The Definitive Guide, Second Edition中的一张经典图。这里仅仅描述上图中的左上角第一个框部分内容，即本步骤的最终输出仅仅是将作业提交到JobTracker。其他后续文章会继续描述。

3. 涉及主要类介绍：

Jobclient ：JobClient是向JobTracker提交作业的接口，可以理解为Hadoop的Mapreduce作业框架向用户开放的作业提交入口。可以提交作业，监视作业状态等

JobSubmissionProtocol（为什么0.20.1的javadoc中找不到这个接口，虽然0.20.1 0.20.2代码中都是相同的用法，知道2.2.0貌似重命名为被ClientProtocol替换）：JobClient和JobTracker进行通信的一个协议。JobClient实际上是用这个句柄来提交锁业并且监视作业的执行状况。

这个接口有两个实现：LocalJobRunner(conf)当mapred-site.xml中的mapred.job.tracker值为local是为此对象。表示在单机上执行；如果为一个地址的话则是 JobTracker的对象，表示分布式执行。

详细可参照JobClient中的初始化代码：

  /**

   *如果是非local的就会 连接到指定的JobTracker

   */

  public void init(JobConf conf) throws IOException {

    String tracker = conf.get("mapred.job.tracker", "local");

    if ("local".equals(tracker)) {

      this.jobSubmitClient = new LocalJobRunner(conf);

    } else {

      this.jobSubmitClient = createRPCProxy(JobTracker.getAddress(conf), conf);

    }

  }

 /*

  * RPC不是本次主题重点，可参照后续发表的专题内容

  */

  private JobSubmissionProtocol createRPCProxy(InetSocketAddress addr,

      Configuration conf) throws IOException {

    return (JobSubmissionProtocol) RPC.getProxy(JobSubmissionProtocol.class,

        JobSubmissionProtocol.versionID, addr, getUGI(conf), conf,

        NetUtils.getSocketFactory(conf, JobSubmissionProtocol.class));

  }

初始化JobSubmissionProtocol

InputFormat 重要，但暂不展开（此处会有链接）

Split 重要，但暂不展开（此处会有链接）

RowSplit 重要，但暂不展开（此处会有链接）

4. 主要代码
通过代码来了解流程，了解如何调用JobClient向Hadoop集群提交作业。

  public RunningJob submitJob(JobConf job) throws FileNotFoundException,

                                                  IOException {

    try {

      return submitJobInternal(job);

    } catch (InterruptedException ie) {

      throw new IOException("interrupted", ie);

    } catch (ClassNotFoundException cnfe) {

      throw new IOException("class not found", cnfe);

    }

  }

JobClient submitJob

实际方法的执行是submitJobInternal方法。着重看下这个方法的内部执行。主要的逻辑部分比较详细的进行了注释。（有些想继续展开，感觉太细了，后面的文章中部分重要的会有涉及，不想深度遍历了，到时会回过头来互相链接）

 public RunningJob submitJobInternal(JobConf job)

             throws FileNotFoundException, ClassNotFoundException,

             InterruptedException, IOException {

         // 1）通过调用JobTracker的getNewJobId()向jobtracker请求一个新的作业ID

         JobID jobId = jobSubmitClient.getNewJobId();

         // 2）获取job的jar、输入分片、作业描述等几个路径信息，以jobId命名。

         // 3）其中getSystemDir()是返回jobtracker的系统目录，来放置job相关的文件。包括：mapreduce的jar文件submitJarFile、分片文件submitSplitFile、作业描述文件submitJobFile

         Path submitJobDir = new Path(getSystemDir(), jobId.toString());

         Path submitJarFile = new Path(submitJobDir, "job.jar");

         Path submitSplitFile = new Path(submitJobDir, "job.split");

         configureCommandLineOptions(job, submitJobDir, submitJarFile);

         Path submitJobFile = new Path(submitJobDir, "job.xml");

         int reduces = job.getNumReduceTasks();

         JobContext context = new JobContext(job, jobId);

         // Check the output specification

         // 4）检查作业的输出说明，如果没有指定输出目录或输出目录以及存在，则作业不提交。参照org.apache.hadoop.mapreduce.lib.output.FileOutputFormat的checkOutputSpecs方法。如果没有指定，则抛出InvalidJobConfException，文件已经存在则抛出FileAlreadyExistsException

         if (reduces == 0 ? job.getUseNewMapper() : job.getUseNewReducer()) {

             org.apache.hadoop.mapreduce.OutputFormat<?, ?> output = ReflectionUtils

                     .newInstance(context.getOutputFormatClass(), job);

             output.checkOutputSpecs(context);

         } else {

             job.getOutputFormat().checkOutputSpecs(fs, job);

         }

         // 5）计算作业的输入分片。详细参见FormatInputFormat获取Split的方法。

         // 6）writeNewSplits 方法把输入分片写到JobTracker的job目录下，名称是submitSplitFile

         // job.split名称。

         // 7）将运行作业所需的资源（包括作业jar文件，配置文件和计算所得的输入分片）复制到jobtracker的文件系统中一个以作业ID命名的目录下。

         // Create the splits for the job

         LOG.debug("Creating splits at " + fs.makeQualified(submitSplitFile));

         int maps;

         if (job.getUseNewMapper()) {

             maps = writeNewSplits(context, submitSplitFile);

         } else {

             maps = writeOldSplits(job, submitSplitFile);

         }

         job.set("mapred.job.split.file", submitSplitFile.toString());

         job.setNumMapTasks(maps);

         // Write job file to JobTracker's fs

         FSDataOutputStream out = FileSystem.create(fs, submitJobFile,

                 new FsPermission(JOB_FILE_PERMISSION));

         try {

             job.writeXml(out);

         } finally {

             out.close();

         }

         // 8）使用句柄JobSubmissionProtocol通过RPC远程调用的submitJob()方法，向JobTracker提交作业。JobTracker根据接收到的submitJob()方法调用后，把调用放入到内存队列中，由作业调度器进行调度。并初始化作业实例。

         JobStatus status = jobSubmitClient.submitJob(jobId);

         if (status != null) {

             return new NetworkedJob(status);

         } else {

             throw new IOException("Could not launch job");

         }

     }

 /**

   * JobTracker.submitJob() kicks off a new job.

   *

   * Create a 'JobInProgress' object, which contains both JobProfile

   * and JobStatus.  Those two sub-objects are sometimes shipped outside

   * of the JobTracker.  But JobInProgress adds info that's useful for

   * the JobTracker alone.

   */

  public synchronized JobStatus submitJob(JobID jobId) throws IOException {

    if(jobs.containsKey(jobId)) {

      //job already running, don't start twice

      return jobs.get(jobId).getStatus();

    }

    JobInProgress job = new JobInProgress(jobId, this, this.conf);

    String queue = job.getProfile().getQueueName();

    if(!(queueManager.getQueues().contains(queue))) {

      new CleanupQueue().addToQueue(conf,getSystemDirectoryForJob(jobId));

      throw new IOException("Queue \"" + queue + "\" does not exist");

    }

    // check for access

    try {

      checkAccess(job, QueueManager.QueueOperation.SUBMIT_JOB);

    } catch (IOException ioe) {

       LOG.warn("Access denied for user " + job.getJobConf().getUser()

                + ". Ignoring job " + jobId, ioe);

      new CleanupQueue().addToQueue(conf, getSystemDirectoryForJob(jobId));

      throw ioe;

    }

   return addJob(jobId, job);

  }

JobTracker submitJob

为了转载内容的一致性、可追溯性和保证及时更新纠错，转载时请注明来自：http://www.cnblogs.com/douba/p/hadoop_jobclient_submit.html。谢谢！

【Hadoop代码笔记】Hadoop作业提交之客户端作业提交的更多相关文章

【hadoop代码笔记】hadoop作业提交之汇总
一.概述在本篇博文中,试图通过代码了解hadoop job执行的整个流程.即用户提交的mapreduce的jar文件.输入提交到hadoop的集群,并在集群中运行.重点在代码的角度描述整个流程,有些 ...
【Hadoop代码笔记】目录
整理09年时候做的Hadoop的代码笔记. 开始. [Hadoop代码笔记]Hadoop作业提交之客户端作业提交 [Hadoop代码笔记]通过JobClient对Jobtracker的调用看详细了解H ...
【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程
一.概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述. 根据官方的流程图示如下: 本篇文章中只是想尝试从 ...
Hadoop学习笔记——Hadoop经常使用命令
Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件. 1.查看指定文件夹下的内容语法: hadoop fs -ls 文件文件夹 2.打开某个已存在的文件语法: h ...
【Hadoop代码笔记】Hadoop作业提交之JobTracker接收作业提交
一.概要描述在上一篇博文中主要描述了JobTracker接收作业的几个服务(或功能)模块的初始化过程.本节将介绍这些服务(或功能)是如何接收到提交的job.本来作业的初始化也可以在本节内描述,但是涉 ...
【Hadoop代码笔记】Hadoop作业提交之JobTracker等相关功能模块初始化
一.概要描述本文重点描述在JobTracker一端接收作业.调度作业等几个模块的初始化工作.想过模块的介绍会在其他文章中比较详细的描述.受理作业提交在下一篇文章中会进行描述. 为了表达的尽可能清晰一 ...
【Hadoop代码笔记】Hadoop作业提交之TaskTracker获取Task
一.概要描述在上上一篇博文和上一篇博文中分别描述了jobTracker和其服务(功能)模块初始化完成后,接收JobClient提交的作业,并进行初始化.本文着重描述,JobTracker如何选择作业 ...
【Hadoop代码笔记】Hadoop作业提交之Job初始化
一.概要描述在上一篇博文中主要描述了JobTracker和其几个服务(或功能)模块的接收到提交的job后的一些处理.其中很重要的一部分就作业的初始化.因为代码片段图的表达问题,本应该在上篇描述的内容 ...
【hadoop代码笔记】Hadoop作业提交中EagerTaskInitializationListener的作用
在整理FairScheduler实现的task调度逻辑时,注意到EagerTaskInitializationListener类.差不多应该是job提交相关的逻辑代码中最简单清楚的一个了. todo: ...

随机推荐

"Principles of Reactive Programming" 之<Actors are Distributed> （2）
Actor Path 我们知道actor是有层级的(hierarchical),第.每个actor在它的父actor的名字空间下都有一个名字.这样就构成了一个树状的结构,就像是文件系统.每个actor ...
使用eclipse远程调试Tomcat的方法
tomcat是一种非常常见的java web应用服务器,有时候服务器可能并不是部署在本地,而是部署在远程其他的机器上,我们用eclispe该如何进行debug调试呢? 1. 在eclispe中新建we ...
java版AC自动机
class Trie { int [][]Next=new int[500005][128]; int []fail=new int[500005]; int []end=new int[500005 ...
highcharts 折线图
<!doctype html> <html lang="en"> <head> <script type="text/javas ...
P147、面试题26：复杂链表的复制
题目:请实现ComplexListNode* Clone(ComplexListNode* pHead),复制一个复杂链表.在复杂链表中,每个结点除了有一个m_pNext指针指向下一个结点外,还有一个 ...
怎样开发Chrome浏览器的插件
http://jingyan.baidu.com/article/b907e627fb90fd46e7891c3c.html Chrome 浏览器作为基于Webkit的新一代浏览器.Chrome自从正 ...
【开源推荐】AllJoyn：打造全球物联网的通用开源框架
摘要:随着智能设备的发展,物联网逐渐进入了人们的生活.据预测,未来几乎一切东西(超过500亿台设备)都可以互联.高通公司发布了开源项目AllJoyn,这是一个能够使连接设备间进行互操作的通用软件框架和 ...
1837. Isenbaev's Number(floyd)
1837 被数据结构部分打击的不行了换地刷点简单的图论第一题 floyd水过 #include <iostream> #include<cstdio> #include& ...
斜率优化dp(POJ1180 Uva1451)
学这个斜率优化dp却找到这个真心容易出错的题目,其中要从n倒过来到1的确实没有想到,另外斜率优化dp的算法一开始看网上各种大牛博客自以为懂了,最后才发现是错了. 不过觉得看那些博客中都是用文字来描述, ...
函数fsp_alloc_seg_inode
从inode page中申请inode entry inode = fsp_alloc_seg_inode(space_header, mtr); /************************* ...

【Hadoop代码笔记】Hadoop作业提交之客户端作业提交

【Hadoop代码笔记】Hadoop作业提交之客户端作业提交的更多相关文章

随机推荐

热门专题