9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考

原创文章，转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/)

Spark streaming 程序需要不断接收新数据，然后进行业务逻辑处理，而用于接受数据的就是Recever。显然Receiver的正常运行对应整个Spark Streaming应用程序至关重要，如果Receiver出现异常，后面的业务逻辑就无从谈起。Spark Streaming 是如何实现Receiver以保证其可靠性的，本文将结合Spark Streaming的Receiver源码实现详细解析Receiver的实现原理。

一、Receiver 实现策略思考

1、启动Receiver的时候,启动一个Job，这个Job里面有RDD的transformations操作和action的操作，这个Job只有一个partition.这个partition的特殊是里面只有一个成员，这个成员就是启动的Receiver。这样做的问题：

a) 如果有多个InputDStream，那就要启动多个Receiver，每个Receiver也就相当于分片partition，那我们启动Receiver的时候理想的情况下是在不同的机器上启动Receiver，但是Spark Core的角度来看就是应用程序，感觉不到Receiver的特殊性，所以就会按照正常的Job启动的方式来处理，极有可能在一个Executor上启动多个Receiver.这样的话就可能导致负载不均衡。

b) 有可能启动Receiver失败，只要集群存在Receiver就不应该失败。

c) 运行过程中，就默认的而言如果是一个partition的话，那启动的时候就是一个Task，但是此Task也很可能失败，因此以Task启动的Receiver也会挂掉。

2、由Spark Streaming 自己管理Receiver，负责Receiver的调度和容错和启动。这样做的好处：

a）由Spark Streaming 调度Receiver 可以充分考虑负责均衡，避免将多个Receiver调度到同一台机器上

b）Receiver 失败后可以自动重新启动，继续接受数据，从而使程序持续不断继续工作下去。

c）Receiver 重启不收Task重启次数的限制。

二、Spark Streaming的Receiver实现原理

2.1、和Receiver实现相关核心成员

（1）ReceiverTracker

（2）ReceiverTrackerEndpoint

（3）ReceiverSuperVisor

（4）Receiver

ReceiverTracker在Driver端,ReceiverSuperVisor和Receiver在Executor端,架构图如下：

2.2 Spark Streaming的Receiver实现源码解析

首先SparkStream启动时候会启动JobScheduler,在JobSceduler的start方法中,会实例化ReceiverTracker,并调用ReceiverTracker的start方法启动ReceiverTracker。

ReceiverTracker的start方法首先检查输入流是否为空，如果不为空会创建ReceiverTrackerEndpoint并注册给rpcEnv。然后调用launchReceivers方法启动Receiver。其中receiverInputStreams是注册到DStreamGraph中的ReceiverInputDStream。

下面看一下launchReceiver方法：基于ReceiverInputDStream(是在Driver端)来获得具体的Receivers实例，然后再把他们分不到Worker节点上。一个ReceiverInputDStream只产生一个Receiver

首先从ReceiverInputDStream中获取Receiver，然后调用runDummySparkJob启动一个虚拟任务，我们在后面再分析这个虚拟任务，先看一下后面的核心代码：

endpoint.send(StartAllReceivers(receivers))

此处的endpoint就是刚才实例化的ReceiverTrackerEndpoint对象的引用，可以看到此处给endpoint发送了StartAllReceivers消息。

下面看下一ReceiverTrackerEndpoint收到StartAllReceivers消息后的处理逻辑：

首先，根据一定的调度策略给传入receivers分配相应的executors，从这里可以看出，Receiver的调度并不是交给spark内核完成的，而是由Spark Streaming框架完成调度过程。这样做的目的就是为了避免Spark内核将Receiver当做普通的job而将多个Receiver调度到同一个节点上。

Spark Streaming的调度策略这里不做分析，接着看下面的代码，迭代所以的receiver ，对每个receiver调用 startReceiver方法在具体Executor上启动Receiver。

这个startReceiver比较复杂，我们一步步分析，先看最核心的一行代码：

可看到，Spark Streaming 为每个Receiver 启动了一个job，而不是由Action操作出发Job执行。

这里job的提交主要关注两个参数receiverRDD和startReceiverFunc。

receiverRDD的源码：

可以看到调用了SparkContext的makeRDD方法创建了RDD，该RDD只有一条数据，就是receiver对象

下面看一看startReceiverFunc的源码

startReceiverFunc 在worker节点上启动receiver，首先创建了一个ReceiverSupervisiorImpl 对象 supervisor，然后调用supervisor的start方法在该节点上启动supervisor：

ReceiverSupervisiorImpl 是继承自ReceiverSupervisor，ReceiverSupervisor中调用了startReceiver方法：

首先调用onReceiverStart方法，将Receiver注册给receiverTracker：

如果注册成功，调用了Receiver的onStart方法在Executor启动Receiver不断接受数据，并将接收的数据交给BlockManager管理，至此Receiver启动完成。

回到ReceiverTracker的startReceiver方法，如果Receiver对应的job完成，无论返回成功或失败，只要ReceiverTracker还没有停止就会发送RestartReceiver消息给ReceiverTrakerEndpoint，重启Receiver。从这里可以看出Receiver不会像普通的spark core 程序一样受到重试次数的限制而导致作业失败

最后，在看一下runDummyJob方法：

该方法运行了一个简单的wordcount程序，运行该程序的目的是确保所有slaves节点都被注册了，让receiver尽量分配到不同的work上运行，看一下getExecutors的源码 :

总结：Driver端的ReceiverTracker管理所有Executor上的Receiver任务，他有一个ReceiverTrakerEndpoint 消息通讯体，这个消息通讯体在startReceiver方法中提交Receiver的job在具体Executor上运行，并接受Executor端发送过来的消息（比如注册Receiver）,在Executor端有一个ReceiverSupervisor专门管理Receiver，负责Receiver的注册启动与ReceiverTracker的信息交互。

原创文章，转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/)

备注：

技术顾问 : Spark专家王家林

QQ：1740415547

新浪微博：http://weibo.com/ilovepains/

From WizNote

9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考的更多相关文章

Spark Streaming源码解读之流数据不断接收全生命周期彻底研究和思考
本期内容 : 数据接收架构设计模式数据接收源码彻底研究一.Spark Streaming数据接收设计模式 Spark Streaming接收数据也相似MVC架构: 1. Mode相当于Rece ...
Spark Streaming源码解读之流数据不断接收和全生命周期彻底研究和思考
本节的主要内容: 一.数据接受架构和设计模式二.接受数据的源码解读 Spark Streaming不断持续的接收数据,具有Receiver的Spark 应用程序的考虑. Receiver和Drive ...
Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
本期内容 : Receiver启动的方式设想 Receiver启动源码彻底分析多个输入源输入启动,Receiver启动失败,只要我们的集群存在就希望Receiver启动成功,运行过程中基于每个Tea ...
Spark Streaming源码解读之生成全生命周期彻底研究与思考
本期内容 : DStream与RDD关系彻底研究 Streaming中RDD的生成彻底研究问题的提出 : 1. RDD是怎么生成的,依靠什么生成 2.执行时是否与Spark Core上的RDD执行有 ...
7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) 上篇博客讨论了Spark Streaming 程序动态生成Job的过程,并留下一个疑问: ...
Spark streaming技术内幕6 : Job动态生成原理与源码解析
原创文章,转载请注明:转载自周岳飞博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序的运行过程是将DStream的操作转化成RDD的操作,S ...
6.Spark streaming技术内幕 : Job动态生成原理与源码解析
原创文章,转载请注明:转载自周岳飞博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序的运行过程是将DStream的操作转化成RDD的操作, ...
Spark Streaming揭秘 Day13 数据安全容错(Driver篇)
Spark Streaming揭秘 Day13 数据安全容错(Driver篇) 书接上回,首先我们要考虑的是在Driver层面,有哪些东西需要维持状态,只有在需要维持状态的情况下才需要容错,总的来说, ...
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现 ReceiverTracker是运行在Driver上Receiver管理程序,今天让我们深入学习一下. 核心 ...

随机推荐

003.关于数组的操作 [growing]
1.获取数组的长度 #include<iostream> using namespace std; template<class T> int length(T& ar ...
java中String字符串的替换函数：replace与replaceAll的区别
例如有如下x的字符串 String x = "[kllkklk\\kk\\kllkk]";要将里面的“kk”替换为++,可以使用两种方法得到相同的结果 replace(CharSe ...
overflow:auto产生的滚动条在安卓系统下能平滑滚动，而在ios下滚动不平滑
由于系统的问题,加上-webkit-overflow-scrolling : touch; 即可解决平滑滚动问题
Sublime Text 3 一些简单使用
1.注释选中需要注释的代码,“Ctrl+/”单行注释,“Ctrl+Shift+/”多行注释.同样操作,可以取消注释. 2.查找 “Ctrl+F”,在底部会出现快速搜索框,在搜索框中输入需要搜索的变量 ...
2015/9/1 Python基础(6)：列表
列表和字符串类型很相似,是同样的序列式数据类型.但是字符串只能由字符组成,列表可以保留任意数目的Python对象的灵活的容器.Python的列表比C的数组要灵活,数组里面只能是一种类型,列表可以有多种 ...
JAVA获取Classpath根路径的方法
方法一: String path = Test.class.getResource("/").toString(); System.out.println("path = ...
Parallel
介绍 C# 4.0 的新特性之并行运算 Parallel.For - for 循环的并行运算 Parallel.ForEach - foreach 循环的并行运算 Parallel.Invoke - ...
Druid连接池及监控在spring中的配置
Druid连接池及监控在spring配置如下: <bean id="dataSource" class="com.alibaba.druid.pool.DruidD ...
【BZOJ】1731: [Usaco2005 dec]Layout 排队布局
[题意]给定按编号顺序站成一排的牛,给定一些约束条件如两牛距离不小于或不大于某个值,求1和n的最大距离.无解输出-1,无穷解输出-2. [算法]差分约束+最短路 [题解]图中有三个约束条件,依次分析: ...
quick-cocos2dx lua中读取加密 csv表
我非常想把一些非必需的信息以CSV表的格式保存到客户端,以减少和服务器的通讯,降低压力.于是写了这么一个. 但因为大家觉得这样的话,需要每次登陆时来检测同步这些数据,会减慢登陆速度,于是没有用到. 我 ...

9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考

9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考的更多相关文章

随机推荐

热门专题