yarn作业提交过程源码

记录源码细节，内部有中文注释

Client 端：

//最终通过ApplicationClientProtocol协议提交到RM端的ClientRMService内

package org.apache.hadoop.mapred;

jobclient包内

YarnRunner

  public JobStatus submitJob(JobID jobId, String jobSubmitDir, Credentials ts)

  throws IOException, InterruptedException {

	addHistoryToken(ts);

	// Construct necessary information to start the MR AM

	ApplicationSubmissionContext appContext =

	  createApplicationSubmissionContext(conf, jobSubmitDir, ts);

	// Submit to ResourceManager

	try {

	  ApplicationId applicationId =

		  resMgrDelegate.submitApplication(appContext);  //提交作业

	  ApplicationReport appMaster = resMgrDelegate

		  .getApplicationReport(applicationId);

		  ResourceMgrDelegate类

			public ApplicationId

	  submitApplication(ApplicationSubmissionContext appContext)

		  throws YarnException, IOException {

	return client.submitApplication(appContext);

  }

  public ResourceMgrDelegate(YarnConfiguration conf) {

	super(ResourceMgrDelegate.class.getName());

	this.conf = conf;

	this.client = YarnClient.createYarnClient(); //该方法会创建YarnClientImpl,具体提交逻辑在该类里

	init(conf);

	start();

  }

  YarnClientImpl类

  public ApplicationId

	  submitApplication(ApplicationSubmissionContext appContext)

		  throws YarnException, IOException {

	ApplicationId applicationId = appContext.getApplicationId();

	appContext.setApplicationId(applicationId);

	SubmitApplicationRequest request =

		Records.newRecord(SubmitApplicationRequest.class);

	request.setApplicationSubmissionContext(appContext);

	rmClient.submitApplication(request);  //ApplicationClientProtocol rmClient

RM端:

//提交只是往中央异步处理器加入RMAppEventType.START事件，异步处理，之后不等待处理结果，直接返回个简单的respone

ClientRMService内:

public SubmitApplicationResponse submitApplication(

	  SubmitApplicationRequest request) throws YarnException {

	ApplicationSubmissionContext submissionContext = request

		.getApplicationSubmissionContext();

	ApplicationId applicationId = submissionContext.getApplicationId();

.....

	  }

	}

	try {

	  // call RMAppManager to submit application directly

	  rmAppManager.submitApplication(submissionContext,

		  System.currentTimeMillis(), false, user);   //作业提交,调用的是RMAppManager中方法

	  LOG.info("Application with id " + applicationId.getId() +

		  " submitted by user " + user);

	  RMAuditLogger.logSuccess(user, AuditConstants.SUBMIT_APP_REQUEST,

		  "ClientRMService", applicationId);

	} catch (YarnException e) {

	  LOG.info("Exception in submitting application with id " +

		  applicationId.getId(), e);

	  RMAuditLogger.logFailure(user, AuditConstants.SUBMIT_APP_REQUEST,

		  e.getMessage(), "ClientRMService",

		  "Exception in submitting application", applicationId);

	  throw e;

	}

	...

	   SubmitApplicationResponse response = recordFactory

		.newRecordInstance(SubmitApplicationResponse.class);

	return response;

	protected void submitApplication(

	  ApplicationSubmissionContext submissionContext, long submitTime,

	  boolean isRecovered, String user) throws YarnException {

   ......

	// Create RMApp

	RMApp application =

		new RMAppImpl(applicationId, rmContext, this.conf,

			submissionContext.getApplicationName(), user,

			submissionContext.getQueue(),

			submissionContext, this.scheduler, this.masterService,

			submitTime, submissionContext.getApplicationType());

	....

	}

	// All done, start the RMApp

	this.rmContext.getDispatcher().getEventHandler().handle(

		new RMAppEvent(applicationId, isRecovered ? RMAppEventType.RECOVER:

			RMAppEventType.START)); //往异步处理器增加个RMAppEvent事件,类型枚值RMAppEventType.START

			//在RM内部会注册该类型的事件会用什么处理器来处理

  }

  在RM内部

	 // Register event handler for RmAppEvents

	this.rmDispatcher.register(RMAppEventType.class,

		new ApplicationEventDispatcher(this.rmContext));

		...

  //ApplicationEventDispatcher,最终会调用到RMAPPImpl来处理这个事件

	public void handle(RMAppEvent event) {

	this.writeLock.lock();

MAppEventType.START

	try {

	  ApplicationId appID = event.getApplicationId();

	  LOG.debug("Processing event for " + appID + " of type "

		  + event.getType());

	  final RMAppState oldState = getState();

	  try {

		/* keep the master in sync with the state machine */

		this.stateMachine.doTransition(event.getType(), event);  //stateMachine通过状态工厂创建,状态工厂核心addTransition

		//各种状态转变对应的处理器,有个submit应该是对应到MAppEventType.START

	  } catch (InvalidStateTransitonException e) {

		LOG.error("Can't handle this event at current state", e);

	private static final class StartAppAttemptTransition extends RMAppTransition {

	public void transition(RMAppImpl app, RMAppEvent event) {

	  if (event.getType().equals(RMAppEventType.APP_SAVED)) {

		assert app.getState().equals(RMAppState.NEW_SAVING);

		RMAppStoredEvent storeEvent = (RMAppStoredEvent) event;

		if(storeEvent.getStoredException() != null) {

		  // For HA this exception needs to be handled by giving up

		  // master status if we got fenced

		  LOG.error("Failed to store application: "

			  + storeEvent.getApplicationId(),

			  storeEvent.getStoredException());

		  ExitUtil.terminate(1, storeEvent.getStoredException());

		}

	  }

	  app.createNewAttempt(true);  //

	};

  }

	private void createNewAttempt(boolean startAttempt) {

	ApplicationAttemptId appAttemptId =

		ApplicationAttemptId.newInstance(applicationId, attempts.size() + 1);

	RMAppAttempt attempt =

		new RMAppAttemptImpl(appAttemptId, rmContext, scheduler, masterService,

		  submissionContext, conf, user);  //新建个RMAppAttemptImpl

	attempts.put(appAttemptId, attempt);

	currentAttempt = attempt;

	if(startAttempt) {

	  handler.handle(

		  new RMAppAttemptEvent(appAttemptId, RMAppAttemptEventType.START));//此处是RMAppAttemptEvent加入异步处理器的队列

		  //RM register可以看到其对应的处理器,最终调用的是RMAppAttemptImpl的handle方法

	}

	RMAppAttemptImpl类:

	  public void handle(RMAppAttemptEvent event) {

	this.writeLock.lock();

	try {

	  ApplicationAttemptId appAttemptID = event.getApplicationAttemptId();

	  LOG.debug("Processing event for " + appAttemptID + " of type "

		  + event.getType());

	  final RMAppAttemptState oldState = getAppAttemptState();

	  try {

		/* keep the master in sync with the state machine */

		this.stateMachine.doTransition(event.getType(), event);  //

	  } catch (InvalidStateTransitonException e) {

..

其中状态机有  .addTransition(RMAppAttemptState.NEW, RMAppAttemptState.SUBMITTED,

		  RMAppAttemptEventType.START, new AttemptStartedTransition())  

		 AttemptStartedTransition的 Transition方法

		 ...

			 // Add the application to the scheduler

	  appAttempt.eventHandler.handle(

		  new AppAddedSchedulerEvent(appAttempt.applicationAttemptId,

			  appAttempt.submissionContext.getQueue(), appAttempt.user)) //该事件即是schedulerEventType,会交给schedulerDispatcher

			  //该对象赋值SchedulerEventDispatcher,它在内部又维护了个类中央异步处理,run方法内都统一通过scheduler处理事件

		  //查看FIFO Scheduler的handle方法:

		  case APP_ADDED:

	{

	  AppAddedSchedulerEvent appAddedEvent = (AppAddedSchedulerEvent) event;

	  addApplication(appAddedEvent.getApplicationAttemptId(), appAddedEvent

		  .getUser());  //

	}

	  private synchronized void addApplication(ApplicationAttemptId appAttemptId,

	  String user) {

	// TODO: Fix store

	FiCaSchedulerApp schedulerApp =

		new FiCaSchedulerApp(appAttemptId, user, DEFAULT_QUEUE, activeUsersManager,

			this.rmContext);

	applications.put(appAttemptId, schedulerApp);

	metrics.submitApp(user, appAttemptId.getAttemptId());

	LOG.info("Application Submission: " + appAttemptId.getApplicationId() +

		" from " + user + ", currently active: " + applications.size());

	rmContext.getDispatcher().getEventHandler().handle(

		new RMAppAttemptEvent(appAttemptId,

			RMAppAttemptEventType.APP_ACCEPTED)); //又是个新的状态,最终RM的ApplicationMasterLauncher与NM通信

			//启动AM,AM又向RM注册,那AM实始化各个map task,reduce task是怎么做的呢

  }

  //该事件会ApplicationAttemptEventDispatcher来处理,在register里注册,会调用RMAppAttempImpl.handle来处理

  public void handle(RMAppAttemptEvent event) {

	this.writeLock.lock();

	try {

	  ApplicationAttemptId appAttemptID = event.getApplicationAttemptId();

	  LOG.debug("Processing event for " + appAttemptID + " of type "

		  + event.getType());

	  final RMAppAttemptState oldState = getAppAttemptState();

	  try {

		/* keep the master in sync with the state machine */

		this.stateMachine.doTransition(event.getType(), event);  // RMAppAttemptEventType.APP_ACCEPTED会激发从什么状态到什么状态,然后执行什么事件.addTransition定义

		//会到schedulered状态,再通过CONTAINER_ALLOCATED事件到ALLOCATED_SAVING状态,再通过CONTAINER_ACQURIED到

		//ALLOCATED状态,再通过LAUNCHED事件到LAUNCHED状态

		比如:

		  .addTransition(RMAppAttemptState.SCHEDULED,

		  RMAppAttemptState.ALLOCATED_SAVING,

		  RMAppAttemptEventType.CONTAINER_ALLOCATED,

		  new AMContainerAllocatedTransition()) //CONTAINER_ALLOCATED会激动SCHEDULED到ALLOCATED_SAVING状态,并执行CONTAINER_ALLOCATED

		  //最后会在nm端启动appmaster，appmaster会初始化一系列map,reduce task,再向RM注册，向RM发送heartbeat

		  //为task请求资源，注意心跳可能没有新的请求资源信息，再从RM内存结构里已经分配好取

		  //注意NM心跳到，也会执行资源分配，保留在内存结构，等appmaster来取

	   关键是状态机RMAPPImpl RMAppAttempImpl，内部会定义一系列的状态到状态的转换及对应的处理类

yarn作业提交过程源码的更多相关文章

Hadoop2.x Yarn作业提交（客户端）
转自:http://blog.csdn.net/lihm0_1/article/details/22186833 YARN作业提交的客户端仍然使用RunJar类,和MR1一样,可参考 http://b ...
YARN作业提交流程剖析
YARN(MapReduce2) Yet Another Resource Negotiator / YARN Application Resource Negotiator对于节点数超出4000的大 ...
Spark（四十九）：Spark On YARN启动流程源码分析（一）
引导: 该篇章主要讲解执行spark-submit.sh提交到将任务提交给Yarn阶段代码分析. spark-submit的入口函数一般提交一个spark作业的方式采用spark-submit来提交 ...
MapReduce源码分析之新API作业提交（二）：连接集群
MapReduce作业提交时连接集群是通过Job的connect()方法实现的,它实际上是构造集群Cluster实例cluster,代码如下: private synchronized void co ...
Spark（五十一）：Spark On YARN（Yarn-Cluster模式）启动流程源码分析（二）
上篇<Spark(四十九):Spark On YARN启动流程源码分析(一)>我们讲到启动SparkContext初始化,ApplicationMaster启动资源中,讲解的内容明显不完整 ...
Spark On YARN启动流程源码分析（一）
本文主要参考: a. https://www.cnblogs.com/yy3b2007com/p/10934090.html 0. 说明 a. 关于spark源码会不定期的更新与补充 b. 对于spa ...
Spark作业执行流程源码解析
目录相关概念概述源码解析作业提交划分&提交调度阶段提交任务执行任务结果处理 Reference 本文梳理一下Spark作业执行的流程. Spark作业和任务调度系统是其核心,通 ...
Spark作业提交至Yarn上执行的一个异常
(1)控制台Yarn(Cluster模式)打印的异常日志: client token: N/A diagnostics: Application application_1584359 ...
Spark On YARN（Yarn-Cluster模式）启动流程源码分析（二）
转自:https://www.cnblogs.com/yy3b2007com/p/11087180.html 本章将针对yarn-cluster(--master yarn –deploy-mode ...

随机推荐

关于webpack打包图片的路径问题
在webpack打包的时候,用css-loader的时候,在css文件里用的引用的背景的图片的时候,如果是url()...那么里面的路径不能用相对路径,得用绝对路径,而且必须是带http的,幸好,,, ...
Magic Cast Method in Java Magic Trick In Java
https://www.atlassian.com/blog/archives/magic_trick_in_java https://www.gamlor.info/wordpress/2010/1 ...
php自定义函数: 改进升级版curl
<?php function dcurl($url, $method = 'GET', $postFields = null, $header = null) { $ch = curl_init ...
ES6学习笔记(二)——字符串扩展
相信很多人也和我一样,不喜欢这样循规蹈矩的逐条去学习语法,很枯燥乏味.主要是这样学完一遍之后,没过一段时间就忘到九霄云外了.不如实际用到的时候研究它记得牢靠,所以我就整理成笔记,加深记忆的同时便于复习 ...
dataTables的导出Excel功能
Datatables它是一款基于jQuery表格插件,钟情于它操作dom的灵活.做后台的同学想必使用它能事半功倍,而且交互强.容易扩展. 我也是最近要做公司后台界面,表格涉及的很多,所以考虑使用DT, ...
Thrift官方安装手册（译）
本篇是Thrift官网安装文档的翻译,原地址点击这里.Thrift之前是不支持Windows的.但是似乎0.9版本以后已经支持Window了.介绍了Thrift安装的环境要求以及在centos,Deb ...
使用openresty + lua 搭建api 网关（一）安装openresty ，并添加lua模块
openresty 有点不多说,网上各种介绍,先安装吧. 官方操作在此,http://openresty.org/cn/installation.html, tar -xzvf openresty-V ...
于win2008R2虽然激活，但是一个小时之后就会自动强制关机的问题
写一个批处理文件: taskkill /f /im wlms.exeping -n 4 127.0.0.1shutdown -a 用记事本写下以上的命令,另存为.bat 批处理文件.双击运行,即可. ...
剑指offer 面试68题
面试68题: 题目:求树中两个节点的最低公共祖先待解决...
Eclipse部署项目的时候抛异常【Multiple Contexts have a path of "/cdcpm".】
Eclipse部署项目的时候抛异常[Multiple Contexts have a path of "/cdcpm".]重新clean .删除server都不好使.查看一下tom ...

yarn作业提交过程源码

yarn作业提交过程源码的更多相关文章

随机推荐

热门专题