一.Spark心跳概述

前面两节中介绍了Spark RPC的基本知识，以及深入剖析了Spark RPC中一些源码的实现流程。

具体可以看这里：

这一节我们来看看一个Spark RPC中的运用实例--Spark的心跳机制。当然这次主要还是从代码的角度来看。

我们首先要知道Spark的心跳有什么用。心跳是分布式技术的基础，我们知道在Spark中，是有一个Master和众多的Worker，那么Master怎么知道每个Worker的情况呢，这就需要借助心跳机制了。心跳除了传输信息，另一个主要的作用就是Worker告诉Master它还活着，当心跳停止时，方便Master进行一些容错操作，比如数据转移备份等等。

与之前讲Spark RPC一样，我们同样分成两部分来分析Spark的心跳机制，分为服务端（Spark Context）和客户端（Executor）。

二. Spark心跳服务端heartbeatReceiver解析

我们可以发现，SparkContext中有关于心跳的类以及RpcEndpoint注册代码。

class SparkContext(config: SparkConf) extends Logging {

	......

	private var _heartbeatReceiver: RpcEndpointRef = _

	......

	//向 RpcEnv 注册 Endpoint。

    _heartbeatReceiver = env.rpcEnv.setupEndpoint(HeartbeatReceiver.ENDPOINT_NAME, new HeartbeatReceiver(this))

	......

	  val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)

    _schedulerBackend = sched

    _taskScheduler = ts

    _dagScheduler = new DAGScheduler(this)

    _heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

	......

}

这里rpcEnv已经在上下文中创建好，通过setupEndpoint向rpcEnv注册一个心跳的Endpoint。还记得上一节中HelloworldServer的例子吗，在setupEndpoint方法中，会去调用Dispatcher创建这个Endpoint（这里就是HeartbeatReceiver）对应的Inbox和EndpointRef，然后在Inbox监听是否有新消息，有新消息则处理它。注册完会返回一个EndpointRef（注意这里有Refer，即是客户端，用来发送消息的）。

所以这一句

_heartbeatReceiver = env.rpcEnv.setupEndpoint(HeartbeatReceiver.ENDPOINT_NAME, new HeartbeatReceiver(this))

就已经完成了心跳服务端监听的功能。

那么这条代码的作用呢？

_heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

这里我们要看上面那句val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode)，它会根据master url创建SchedulerBackend和TaskScheduler。这两个类都是和资源调度有关的，所以需要借助心跳机制来传送消息。其中TaskScheduler负责任务调度资源分配，SchedulerBackend负责与Master、Worker通信收集Worker上分配给该应用使用的资源情况。

这里主要是告诉HeartbeatReceiver（心跳）的监听端，告诉它TaskScheduler这个东西已经设置好啦。HeartbeatReceiver就会回应你说好的，我知道的，并持有这个TaskScheduler。

到这里服务端heartbeatReceiver就差不多完了，我们可以发现，HeartbeatReceiver除了向RpcEnv注册并监听消息之外，还会去持有一些资源调度相关的类，比如TaskSchedulerIsSet。

三. Spark心跳客户端发送心跳解析

发送心跳发送在Worker，每个Worker都会有一个Executor，所以我们可以发现在Executor中发送心跳的代码。

private[spark] class Executor(

    executorId: String,

    executorHostname: String,

    env: SparkEnv,

    userClassPath: Seq[URL] = Nil,

    isLocal: Boolean = false)

  extends Logging {

  ......

  // must be initialized before running startDriverHeartbeat()

  //创建心跳的 EndpointRef

  private val heartbeatReceiverRef = RpcUtils.makeDriverRef(HeartbeatReceiver.ENDPOINT_NAME, conf, env.rpcEnv)

  ......

  startDriverHeartbeater()

  ......

    /**

   * Schedules a task to report heartbeat and partial metrics for active tasks to driver.

   * 用一个 task 来报告活跃任务的信息以及发送心跳。

   */

  private def startDriverHeartbeater(): Unit = {

    val intervalMs = conf.getTimeAsMs("spark.executor.heartbeatInterval", "10s")

    // Wait a random interval so the heartbeats don't end up in sync

    val initialDelay = intervalMs + (math.random * intervalMs).asInstanceOf[Int]

    val heartbeatTask = new Runnable() {

      override def run(): Unit = Utils.logUncaughtExceptions(reportHeartBeat())

    }

	//heartbeater是一个单线程线程池，scheduleAtFixedRate 是定时执行任务用的，和 schedule 类似，只是一些策略不同。

    heartbeater.scheduleAtFixedRate(heartbeatTask, initialDelay, intervalMs, TimeUnit.MILLISECONDS)

  }

  ......

}

可以看到，在Executor中会创建心跳的EndpointRef，变量名为heartbeatReceiverRef。

然后我们主要看startDriverHeartbeater()这个方法，它是关键。

我们可以看到最后部分代码

    val heartbeatTask = new Runnable() {

      override def run(): Unit = Utils.logUncaughtExceptions(reportHeartBeat())

    }

	heartbeater.scheduleAtFixedRate(heartbeatTask, initialDelay, intervalMs, TimeUnit.MILLISECONDS)

heartbeatTask是一个Runaable，即一个线程任务。scheduleAtFixedRate则是java concurrent包中用来执行定时任务的一个类，这里的意思是每隔10s跑一次heartbeatTask中的线程任务，超时时间30s。

为什么到这里还是没看到heartbeatReceiverRef呢，说好的发送心跳呢？别急，其实在heartbeatTask线程任务中又调用了另一个方法，我们到里面去一探究竟。

private[spark] class Executor(

    executorId: String,

    executorHostname: String,

    env: SparkEnv,

    userClassPath: Seq[URL] = Nil,

    isLocal: Boolean = false)

  extends Logging {

  ......

  private def reportHeartBeat(): Unit = {

    // list of (task id, accumUpdates) to send back to the driver

    val accumUpdates = new ArrayBuffer[(Long, Seq[AccumulatorV2[_, _]])]()

    val curGCTime = computeTotalGcTime()

    for (taskRunner <- runningTasks.values().asScala) {

      if (taskRunner.task != null) {

        taskRunner.task.metrics.mergeShuffleReadMetrics()

        taskRunner.task.metrics.setJvmGCTime(curGCTime - taskRunner.startGCTime)

        accumUpdates += ((taskRunner.taskId, taskRunner.task.metrics.accumulators()))

      }

    }

    val message = Heartbeat(executorId, accumUpdates.toArray, env.blockManager.blockManagerId)

    try {

	  //终于看到 heartbeatReceiverRef 的身影了

      val response = heartbeatReceiverRef.askWithRetry[HeartbeatResponse](

          message, RpcTimeout(conf, "spark.executor.heartbeatInterval", "10s"))

      if (response.reregisterBlockManager) {

        logInfo("Told to re-register on heartbeat")

        env.blockManager.reregister()

      }

      heartbeatFailures = 0

    } catch {

      case NonFatal(e) =>

        logWarning("Issue communicating with driver in heartbeater", e)

        heartbeatFailures += 1

        if (heartbeatFailures >= HEARTBEAT_MAX_FAILURES) {

          logError(s"Exit as unable to send heartbeats to driver " +

            s"more than $HEARTBEAT_MAX_FAILURES times")

          System.exit(ExecutorExitCode.HEARTBEAT_FAILURE)

        }

    }

  }

  ......

}

可以看到，这里heartbeatReceiverRef和我们上一节的例子，HelloworldClient类似，核心也是调用了askWithRetry()方法，这个方法是通过同步的方式发送Rpc消息。而这个方法里其他代码其实就是获取task的信息啊，或者是一些容错处理。核心就是调用askWithRetry()方法来发送消息。

看到这你就明白了吧。Executor初始化便会用一个定时任务不断发送心跳，同时当有task的时候，会获取task的信息一并发送。这就是心跳的大概内容了。

总的来说Spark心跳的代码也是比较杂的，不过这些也都是为了让设计更加高耦合，低内聚，让这些代码更加方便得复用。不过通过层层剖析，我们还是发现其实它底层就是我们之前说到的Spark RPC框架的内容！！

OK，Spark RPC三部曲完毕。如果你能看到这里那不容易呀，给自己点个赞吧！！

Spark RPC框架源码分析（三）Spark心跳机制分析的更多相关文章

Spark RPC框架源码分析（一）简述
Spark RPC系列: Spark RPC框架源码分析(一)运行时序 Spark RPC框架源码分析(二)运行时序 Spark RPC框架源码分析(三)运行时序一. Spark rpc框架概述 S ...
Spark RPC框架源码分析（二）RPC运行时序
前情提要: Spark RPC框架源码分析(一)简述一. Spark RPC概述上一篇我们已经说明了Spark RPC框架的一个简单例子,Spark RPC相关的两个编程模型,Actor模型和Re ...
框架源码系列三：手写Spring AOP（AOP分析、AOP概念学习、切面实现、织入实现）
一.AOP分析问题1:AOP是什么? Aspect Oriented Programming 面向切面编程,在不改变类的代码的情况下,对类方法进行功能增强. 问题2:我们需要做什么? 在我们的框架中 ...
Java集合框架源码（三）——arrayList
1. ArrayList概述: ArrayList是List接口的可变数组的实现.实现了所有可选列表操作,并允许包括 null 在内的所有元素.除了实现 List 接口外,此类还提供一些方法来操作内部 ...
Spark Scheduler模块源码分析之TaskScheduler和SchedulerBackend
本文是Scheduler模块源码分析的第二篇,第一篇Spark Scheduler模块源码分析之DAGScheduler主要分析了DAGScheduler.本文接下来结合Spark-1.6.0的源码继 ...
【原】Spark中Client源码分析（二）
继续前一篇的内容.前一篇内容为: Spark中Client源码分析(一)http://www.cnblogs.com/yourarebest/p/5313006.html DriverClient中的 ...
【原】Spark中Master源码分析（一）
Master作为集群的Manager,对于集群的健壮运行发挥着十分重要的作用.下面,我们一起了解一下Master是听从Client(Leader)的号召,如何管理好Worker的吧. 1.家当(静态属 ...
Spark Scheduler模块源码分析之DAGScheduler
本文主要结合Spark-1.6.0的源码,对Spark中任务调度模块的执行过程进行分析.Spark Application在遇到Action操作时才会真正的提交任务并进行计算.这时Spark会根据Ac ...
Apache Spark源码走读之6 -- 存储子系统分析
欢迎转载,转载请注明出处,徽沪一郎. 楔子 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数 ...

随机推荐

ASP.NET Core微服务实战系列
希望给你3-5分钟的碎片化学习,可能是坐地铁.等公交,积少成多,水滴石穿,码字辛苦,如果你吃了蛋觉得味道不错,希望点个赞,谢谢关注. 前言这里记录的是个人奋斗和成长的地方,该篇只是一个系列目录和构想 ...
DS控件库 Win7链接列表框的仿Windows开始菜单样式
Win7链接列表框是依照Windows7的开始菜单开发的,同时进行了属性和功能的扩展. 效果图项属性控件属性控件主要事件点击项(Sender As Win7链接列表框, Itm As 链接项, ...
Web前端-Ajax基础技术(下)
Web前端-Ajax基础技术(下) 你要明白ajax是什么,怎么使用? ajax,web程序是将信息放入公共的服务器,让所有网络用户可以通过浏览器进行访问. 浏览器发送请求,获取服务器的数据: 地址栏 ...
瑞芯微发布最新旗舰应用处理器-RK3588
在瑞芯微电子第四届“开发者之春”大会上,瑞芯微推出了新一代8nm旗舰处理器-RK3588 这个芯片将采用8nm 制程工艺.基于A76+A55 内核组合,具备4K UI性能.8K VPU,拥有NPU2. ...
Android利用RecyclerView实现列表倒计时效果
最近面试时,面试官问了一个列表倒计时效果如何实现,然后脑袋突然懵的了O(∩_∩)O,现在记录一下. 运行效果图实现思路实现方法主要有两个: 1.为每个开始倒计时的item启动一个定时器,再做更新i ...
eShopOnContainers 知多少[4]：Catalog microservice
引言 Catalog microservice(目录微服务)维护着所有产品信息,包括库存.价格.所以该微服务的核心业务为: 产品信息的维护库存的更新价格的维护架构模式如上图所示,本微服务采用简 ...
.NET Core 2.1来了！
太棒了! .NET Core 2.0正式发布至今已经过去了大半年,这大半年说长不长说短不短,这段时间里,我是充分地体会到了微软的诚意,那就是认认真真打造一个优秀的开源平台.这大半年的时间里,微软一直在 ...
我是如何自学 Python 的
不少初学 Python 或者准备学习 Python 的小伙伴问我如何学习 Python.今天就说说我当时是怎么学习的. 缘起我大学专业是电气工程,毕业后做的是自动化方面的工作.对于高级语言编程基本是 ...
一篇读懂HTTPS：加密原理、安全逻辑、数字证书等
1.引言 HTTPS(全称: Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道,简单讲是HTTP的安全版.本文,就来深入介绍下其 ...
Sublime Text2支持Vue语法高亮显示
1.下载vue语法高亮插件vue-syntax-highlight 下载地址:https://github.com/vuejs/vue-syntax-highlight 2.将vue-syntax-h ...

Spark RPC框架源码分析（三）Spark心跳机制分析

一.Spark心跳概述

二. Spark心跳服务端heartbeatReceiver解析

三. Spark心跳客户端发送心跳解析

Spark RPC框架源码分析（三）Spark心跳机制分析的更多相关文章

随机推荐

热门专题