spark streaming是建立在spark core之上的，也就说spark streaming任务最终执行还是依赖于RDD模型。在转化成最终的RDD模型执行前，spark streaming主要需要处理以下几个问题：

a，每个batch的RDD是怎么根据用户的代码生成的（对应JobGenerator）？

b，数据是怎么从外部接收的（对应receiver）？

c，每个batch的任务是怎么触发的（对应JobGenerator）？

d，怎么保证spark streaming任务的可靠性？

本文主要针对a，b，c这三个问题做深入分析。

1，DStream拓扑结构

当写spark批处理应用时，通过RDD形成了DAG的计算拓扑。类似的，在spark streaming中通过DStream形成了计算模板的拓扑。当定义好DStream的计算模板以后，每个batch就可以基于该模板生成RDD的计算拓扑。以example中streaming的NetworkWordCount为例：

val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()

生成的DStream拓扑结构如下：

以上拓扑结构图中的节点主要分为三类：输入流，一般DStream计算节点，输出流节点。

2，DStream处理的整体流程

当StreamingContext启动以后，streaming任务的整体流程逻辑图如下：

核心要点如下：

1，ReceiverTracker（位于driver端），主要负责对位于executor端的Receiver进行控制。包括通过提交任务启动Receiver，接收Receiver端Block相关的信息汇报等。

2，JobGenerator（位于driver端），主要作用是通过一个定时器定期生成任务。生成任务主要包括四个步骤：

a，根据receiver接收并且上报给ReceiverTracker的信息，生成当前batch的RDD输入数据。

b，根据用户定义的DStream拓扑结构模板生成当前batch的Jobs

c，将步骤b中生成的Job分装成Jobset，交由JobHandler去执行。在Job执行过程中，将有可能触发底层RDD任务提交和计算。

d，通过检查点，保存当前JobGraph的状态。

3，ReceiverSupervisor（位于executor端），主要负责管理executor段的Reciver，包括启动Receiver，保存Reciever接收的数据以及发送相关消息给Driver端的ReceiverTracker。

接下来，将解释一下开头提出的问题

Q1，每个batch的RDD是怎么根据用户的代码生成的（对应JobGenerator）？

首先，应用通过DStream形成了RDD生成的模板。其次，在JobGenerator定时按照batchTime生成的任务的时候，会从输出流开始（ForEachDStream注册），递归地调用DStream中getOrCompute方法，封装成Job。在Job中就包含了每个batch之间的RDD DAG。

Q2，数据是怎么从外部接收的（对应receiver）？

首先，接收数据实在executor端进行的。其次，Receiver持续不断的接受数据，并且将数据通过ReceiverSupervisor借助RecevierHanlder进行保存，最终将数据按block保存，并且向Driver汇报接受的数据信息。

Q3，每个batch的任务是怎么触发的（对应JobGenerator）？

在Driver端的JobGenerator有一个定时器，每隔batchTime时间定期出发一次任务生成。具体要做的事情已阐述。

Q4，怎么保证spark streaming任务的可靠性？

保证可靠性涉及到driver和executor端，在本文中，可以看到的一点是在任务生成以后，会通过检查点方式保存当前JobGraph的状态。其他待后续总结。

深入理解spark streaming的更多相关文章

通过案例对 spark streaming 透彻理解三板斧之一： spark streaming 另类实验
本期内容 : spark streaming另类在线实验瞬间理解spark streaming本质一．我们最开始将从Spark Streaming入手为何从Spark Streaming切入 ...
Spark Streaming高级特性在NDCG计算实践
从storm到spark streaming,再到flink,流式计算得到长足发展, 依托于spark平台的spark streaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方 ...
大数据开发实战：Spark Streaming流计算开发
1.背景介绍 Storm以及离线数据平台的MapReduce和Hive构成了Hadoop生态对实时和离线数据处理的一套完整处理解决方案.除了此套解决方案之外,还有一种非常流行的而且完整的离线和实时数 ...
spark streaming基础知识1
1.怎么理解spark streaming中的dstream? 它是spark streaming的基础数据结构,代表着(time,RDD)序列,有两种生成方式,一种是基于流数据创建(kafka,so ...
1.Spark Streaming另类实验与 Spark Streaming本质解析
1 Spark源码定制选择从Spark Streaming入手我们从第一课就选择Spark子框架中的SparkStreaming. 那么,我们为什么要选择从SparkStreaming入手开始我们 ...
3.spark streaming Job 架构和容错解析
一.Spark streaming Job 架构 SparkStreaming框架会自动启动Job并每隔BatchDuration时间会自动触发Job的调用. Spark Streaming的Job ...
spark第六篇：Spark Streaming Programming Guide
预览 Spark Streaming是Spark核心API的扩展,支持高扩展,高吞吐量,实时数据流的容错流处理.数据可以从Kafka,Flume或TCP socket等许多来源获取,并且可以使用复杂的 ...
Spark Streaming基础概念
为了更好地理解Spark Streaming 子框架的处理机制,必须得要自己弄清楚这些最基本概念. 1.离散流(Discretized Stream,DStream):这是Spark Streamin ...
Spark Streaming 入门
概述什么是 Spark Streaming? Spark Streaming is an extension of the core Spark API that enables scalable, ...

随机推荐

Java代理（Aop实现的原理）
经过大牛同事的一句指点立马明确的代理实现方式,Spring Aop应该也是这么去做的.直接上代码实如今Car的run方法之前调用star方法,在run方法之后调用stop方法. Car类 packa ...
Apriori算法实例
Apriori算法与实例 R. Agrawal 和 R. Srikant于1994年在文献[2]中提出了Apriori算法,该算法的描述如下: 下面是一个具体的例子,最开始数据库里有4条交易,{A.C ...
Caffe-Windows下遇到过的问题、技巧、解决方案
转换数据,求均值: 转换数据步骤大概是:建立一个train文件夹,里面放一个train.txt;建立一个test文件夹,里面放一个test.txt,然后分别运行以下两条bat命令: SET GLOG ...
servlet的<url-pattern>
① 完全匹配 <url-pattern>/test/list.do</url-pattern> ② 路径匹配 <url-pattern>/*</url-pat ...
Barn Repair
链接分析:我们不断统计相邻两个元素之间的差值,按照差值从大到小排序,在进行贪心即可 /* PROB:barn1 ID:wanghan LANG:C++ */ #include "iostr ...
data对象转化成后端需要的json格式
data=JSON.stringify(json_data); $.ajax({type:'post',url:url+'warehouse/create_alliance_out/',data:da ...
rtmplib rtmp协议过程分析
转自:http://chenzhenianqing.cn/articles/1009.html 写的很好,收藏如下,向作者致敬! 没事碰到了librtmp库,这个库是ffmpeg的依赖库,用来接收,发 ...
Babel转码器
Babel是一个广泛使用的ES6转码器,可以将ES6代码转为ES5代码,从而在现有环境执行.这意味着,你可以用ES6的方法编写程序,又不用担心现在环境是否支持.
thinkpad开机引导方式变成PCI LAN选项解决
问题:开机的引导方式变成[PCI LAN],并且前面有一个小箭头,无法正常启动加载.在BIOS中重置调整启动顺序也无法解决.无法进入U盘启动盘 1.首先开机按F12进入BIOS,选择 APP Menu ...
UltraISO制作U盘启动盘-centos7
1.下载.安装UltraISO软件,(网上找到下载) 2.安装好以后,打开软件,显示如下界面: 3.选择镜像点击菜单栏的“文件”选项,再点击“打开”按钮,选择要刻录的系统镜像: 4.点击菜单栏的“启 ...

深入理解spark streaming