spark启动原理总结

一般情况下，我们启动spark集群都是start-all.sh或者是先启动master(start-master.sh),然后在启动slave节点(start-slaves.sh)，其实翻看start-all.sh文件里面的代码，可以发现它里面其实调用的执行的也是start-master.sh和start-slaves.sh文件的内容：

在start-master.sh中定义了CLASS="org.apache.spark.deploy.master.Master" ，最终调用其main方法启动master服务，在start-slaves.sh文件中有调用了start-slave.sh内容，只是定义了

CLASS="org.apache.spark.deploy.worker.Worker"来启动worker。

接下来先看master中的main方法，在main方法中调用了startRpcEnvAndEndpoint()方法，来定义并启动消息通信。

在启动服务端master通信的时候，会在inbox中调用master的onStart方法(关于spark RPC可以查阅其他博客)；下面就分析master的onStart方法：

  override def onStart(): Unit = {

     logInfo("Starting Spark master at " + masterUrl)

     logInfo(s"Running Spark version ${org.apache.spark.SPARK_VERSION}")

     webUi = new MasterWebUI(this, webUiPort)

     webUi.bind()

     masterWebUiUrl = "http://" + masterPublicAddress + ":" + webUi.boundPort

     if (reverseProxy) {

       masterWebUiUrl = conf.get("spark.ui.reverseProxyUrl", masterWebUiUrl)

       webUi.addProxy()

       logInfo(s"Spark Master is acting as a reverse proxy. Master, Workers and " +

        s"Applications UIs are available at $masterWebUiUrl")

     }

     checkForWorkerTimeOutTask = forwardMessageThread.scheduleAtFixedRate(new Runnable {

       override def run(): Unit = Utils.tryLogNonFatalError {

         self.send(CheckForWorkerTimeOut)

       }

     }, 0, WORKER_TIMEOUT_MS, TimeUnit.MILLISECONDS)

     if (restServerEnabled) {

       val port = conf.getInt("spark.master.rest.port", 6066)

       restServer = Some(new StandaloneRestServer(address.host, port, conf, self, masterUrl))

     }

     restServerBoundPort = restServer.map(_.start())

     masterMetricsSystem.registerSource(masterSource)

     masterMetricsSystem.start()

     applicationMetricsSystem.start()

     // Attach the master and app metrics servlet handler to the web ui after the metrics systems are

     // started.

     masterMetricsSystem.getServletHandlers.foreach(webUi.attachHandler)

     applicationMetricsSystem.getServletHandlers.foreach(webUi.attachHandler)

     val serializer = new JavaSerializer(conf)

     val (persistenceEngine_, leaderElectionAgent_) = RECOVERY_MODE match {

       case "ZOOKEEPER" =>

         logInfo("Persisting recovery state to ZooKeeper")

         val zkFactory =

           new ZooKeeperRecoveryModeFactory(conf, serializer)

         (zkFactory.createPersistenceEngine(), zkFactory.createLeaderElectionAgent(this))

       case "FILESYSTEM" =>

         val fsFactory =

           new FileSystemRecoveryModeFactory(conf, serializer)

         (fsFactory.createPersistenceEngine(), fsFactory.createLeaderElectionAgent(this))

       case "CUSTOM" =>

         val clazz = Utils.classForName(conf.get("spark.deploy.recoveryMode.factory"))

         val factory = clazz.getConstructor(classOf[SparkConf], classOf[Serializer])

           .newInstance(conf, serializer)

           .asInstanceOf[StandaloneRecoveryModeFactory]

         (factory.createPersistenceEngine(), factory.createLeaderElectionAgent(this))

       case _ =>

         (new BlackHolePersistenceEngine(), new MonarchyLeaderAgent(this))

     }

     persistenceEngine = persistenceEngine_

     leaderElectionAgent = leaderElectionAgent_

   }

在这个方法里面首先针对webui进行了一系列的处理，然后启动一个线程来检查任何超时的worker，并且清除它；其次处理了一些关于Metrics的内容和在多个master下面的的关于元数据和master选举的一些机制；

根据spark.deploy.recoveryMode设置的参数，可以是ZOOKEEPER，FILESYSTEM，CUSTOM，默认为NONE，当是zookeeper时，基于ZooKeeper选举，元数据信息会持久化到ZooKeeper中。当是fileSystem时集群的元数据会保存到本地的文件系统中，而master启动会立即成为集群的master。当是custom时，是用户自定义，需要实现StandaloneRecoveryModeFactory，并将类的名字配置到spark.deploy.recoveryMode.factory;当是NONE的时候不会持久化元数据信息，master启动会即是集群的master。

接下来看看worker中的处理，在worker的mian方法中调用的是startRpcEnvAndEndpoint()方法

上面的方法也是注册启动了worker的消息通信，同理也会调用worker的onStart方法。在onstart方法里面会调用registerWithMaster()方法来注册到master上。

在这个方法里面会调用tryRegisterAllMasters来注册到master，在其后面是关于重试的处理，主要是判断registered的值来进行相应的处理。接下来是tryRegisterAllMasters方法：

这里会创建一个注册master的线程池来管理，发送的消息在sendRegisterMessageToMaster方法中，就是发送一个RegisterWorker的消息给master；接下俩看master对这个消息的处理：

master在接收到这个消息的时候会先判断state状态以及现有注册的worker是否存在新的注册的worker的id，若状态和id没有匹配到则新建一个workerInfo来保存worker的信息，最后调用registerWorker方法添加worker，早真正添加完成之后，会给worker发送RegisteredWorker消息，其后会调用schedule方法；下面先看worker接收到消息的处理：

worker在接收到来master的消息之后，先更新registered的值，然后更新master的信息，启动一个线程定时给master发送心跳信息，如果配置了spark.worker.cleanup.enabled为true，则进行清理工作，最后会向master发送worker的exector的信息。

到这个时候master和worker已经完全启动，接下来就是启动worker中的exectors。这个改天再说！

spark启动原理总结的更多相关文章

[Spark内核] 第32课：Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本課主題 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 [引言部份:你希望读者 ...
Spark Worker原理和源码剖析解密：Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
本课主题 Spark Worker 原理 Worker 启动 Driver 源码鉴赏 Worker 启动 Executor 源码鉴赏 Worker 与 Master 的交互关系 Spark Worke ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...
小记---------spark架构原理&主要组件和进程
spark的主要组件和进程 driver (进程): 我们编写的spark程序就在driver上,由driver进程执行 master(进程): 主要负责资源的 ...
MySQL 启动原理剖析
200 ? "200px" : this.width)!important;} --> 介绍本篇文章主要从查看MySQL的启动命令的代码来详细了解MySQL的启动过程,内容 ...
【原】iOS学习之应用程序的启动原理
最近看视频了解了一下应用程序的启动原理,这里就做一个博客和大家分享一下,相互讨论,如果有什么补充或不同的意见可以提出来! 1.程序入口众所周知,一个应用程序的入口一般是一个 main 函数,iOS也 ...
iOS app 程序启动原理
iOS app 程序启动原理 Info.plist: 常见设置建立一个工程后,会在Supporting files文件夹下看到一个"工程名-Info.plist"的文件, ...
iOS的常见文件及程序的启动原理
一. iOS中常见文件 (一). Xcode6之前创建项目,默认可以看见一个存放框架的文件夹 info文件以工程文件名开头,如:第一个项目-Info.plist 项目中默认有一个PCH文件 (二). ...

随机推荐

named 快速部署及主机记录普及
实验环境centos7.2,仅供参考 yum -y install epel-release --安装最新yum配置源 cd /etc/yum.repos.d/ # wget http://re ...
Build 2016: 发布明天的云创新来服务今天的开发者
每个企业和行业都在被云潜移默化地改变着.随着云计算的速度.规模和灵活性的不断增加,云服务带来的可能性也在不断被拓展.想象一下,通过监测传感器,一位奶农能够将他的奶牛牛奶产量提高:或是一家医院能够自动监 ...
javaEE版本的eclipse中导入工程，发现server里面找不到工程，根本发布不了也不能运行
原文:http://www.cnblogs.com/sxmcACM/p/3674545.html 1.具体解决方法首先确保,你导入的工程所用的JDK版本和你的机器上安装的版本是同一版本, 如果不同做 ...
MongoDB安装步骤
安装C:\Users\Administrator>d:\mongo\bin\mongod -dbpath=D:\ND.Monodb\ND.Monodb.db -logpath=D:\ND.Mon ...
[问题记录]cocos的lua绑定安装pyyaml报错
描述:按照readme中的文档操作报错,提示python2.7没有安装,但是确实已经安装了,而且也设置环境变量成功了. 解决: 在D盘新建register.py的文件,内容如下: # # script ...
BIND简易教程（0）：在Ubuntu下源码安装BIND（其实跟前面的教程没太大关系）
之前介绍过BIND的基本使用啦.关于BIND的入门级使用方法见:http://www.cnblogs.com/anpengapple/p/5877661.html简易教程系列,本篇只讲BIND安装. ...
刷题防止Time Limit Exceeded（TLE）技巧
1.C++ 不要使用cin,cout,该使用scanf和printf 2.Java 不要使用Scanner,改用BufferedReader 3.Python 在文件开始的地方加入 import ps ...
Linux总结（十二）set_uid set_gid stic_bit 软链接硬链接
一 set_uid 之前我们修改普通用户的登陆密码,都是以管理员身份在操作,比如我们在lv账户下,我们使用sudo passwd lv 重置lv账户密码,此时我们直接拿到root权限忽略掉了文件权限的 ...
master分支合并
一.Sourcetree简单介绍通过Git可以进行对项目的版本管理,但是如果直接使用Git的软件会比较麻烦,因为是通过一条一条命令进行操作的. Sourcetree则可以与Git结合,提供图形界面 ...
为什么机器能够学习——PAC Learnability
机器学习中,我们根据训练集训练一个模型,来对测试数据进行预测.通常我们并不关心模型在训练集上的好坏(即训练误差,in sample error),举个简单例子,我们想要根据前六个月股市行情训练一个模型 ...

spark启动原理总结

spark启动原理总结的更多相关文章

随机推荐

热门专题