Spark Streaming的原理

Spark Streaming应用也是Spark应用，Spark Streaming生成的DStream最终也是会转化成RDD，然后进行RDD的计算，所以Spark Streaming最终的计算是RDD的计算，那么Spark Streaming的原理当然也包含了Spark应用通用的原理。Spark Streaming作为实时计算的技术，和其他的实时计算技术(比如Storm)不太一样，我们可以将Spark Streaming理解为micro-batch模式的实时计算，也就是说Spark Streaming本质是批处理，就是这个批处理之间的时间间隔是非常的小，这个时间间隔最小是500ms，基本上可以适合企业中80%的实时计算场景。

在实时计算的步骤中，Spark Streaming当然也包含了实时接收数据过程、数据的transformation过程以及数据结果输出过程三个最基本的过程。Spark Streaming在数据接收的部分包括基于Receiver模式以及Direct模式(Kafka Direct)，接下来详细的讲解下基于Receiver模式的Spark Streaming应用的原理。

当我们使用spark-submit提交一个Spark Streaming应用的时候，向集群申请到资源并且初始化需要的Executor后，Spark Streaming应用的执行过程包括两部分：一个是StreamingContext的初始化，一个是Spark Streaming应用对Receiver实时接收到的数据的实时计算。以下分别介绍

StreamingContext的初始化：

StreamingContext的初始化的时候，会初始化DStreamGraph和JobScheduler两个模块，其中DStreamGraph包含了InputDStream和OutputDStream两个DStream，InputDStream中包含了Receiver信息，OutputDStream包含了最终结果的输出信息，这两个DStream之间就是一系列的业务Transformations。JobScheduler中包含了JobGenerator和ReceiverTracker，JobGenerator中有一个定时器，用于定时的触发并生成批次定时任务，ReceiverTracker用于跟踪Receiver接收的数据，当ReceiverTracker初始化的时候会从DStreamGraph中InputDStream拿到Receiver，然后在一个Executor上启动这个Receiver，至此StreamingContext的初始化完成

Spark Streaming应用对Receiver实时接收到的数据的实时计算

Receiver将实时接收到的数据存储在Executor的内存中，由BlockManager管理，存储完数据后会告诉ReceiverTracker数据块存储的位置，方便ReceiverTracker跟踪定位；当我们设定的batch interval时间到了的时候，JobGenerator就会告诉ReceiverTracker定位所有这个batch interval收集到的数据，并且生成一个定时任务，这个定时任务就会根据ReceiverTracker定位到的所有的数据块生成一个BlockRDD(这个是RDD链中的第一个需要执行的)，并且根据InputDStream和OutputDStream两个DStream之间的一系列的业务Transformations生成RDD链，最后生成RDD DAG，进行RDD的计算任务的提交，这个时候就来到了Spark RDD的任务提交的原理的，可以参考Spark Core中的内容

注意：上面的原理是讲解基于Receiver模式的，还有比如Kafka Direct模式在数据接收的地方和这个稍有不同，其他的数据处理流程是一样

Spark Streaming的原理的更多相关文章

Spark 以及 spark streaming 核心原理及实践
收录待用,修改转载已取得腾讯云授权作者 | 蒋专蒋专,现CDG事业群社交与效果广告部微信广告中心业务逻辑组员工,负责广告系统后台开发,2012年上海同济大学软件学院本科毕业,曾在百度凤巢工作三年, ...
Spark Streaming初步使用以及工作原理详解
在大数据的各种框架中,hadoop无疑是大数据的主流,但是随着电商企业的发展,hadoop只适用于一些离线数据的处理,无法应对一些实时数据的处理分析,我们需要一些实时计算框架来分析数据.因此出现了很多 ...
Spark生态以及原理
spark 生态及运行原理 Spark 特点运行速度快 => Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算.官方提供的数据表明,如果数据由磁盘读取,速度是Hadoop MapR ...
新闻实时分析系统 Spark Streaming实时数据分析
1.Spark Streaming功能介绍1)定义Spark Streaming is an extension of the core Spark API that enables scalable ...
新闻网大数据实时分析可视化系统项目——19、Spark Streaming实时数据分析
1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalab ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark Streaming fileStream实现原理
fileStream是Spark Streaming Basic Source的一种,用于“近实时”地分析HDFS(或者与HDFS API兼容的文件系统)指定目录(假设:dataDirectory)中 ...
Spark Streaming简介及原理
简介: SparkStreaming是一套框架. SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理. 支持多种数据源获取数据: Spark ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...

随机推荐

sourcetree在mac上的使用
sourcetree是git在Mac上管理代码的ui工具,当然你也可以使用命令直接使用git来管理代码,sourcetree下载下载地址:https://www.sourcetreeapp.com. ...
python基础教程（2）
Python 基础教程 Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言. 执行Python程序对于大多数程序语言,第一个入门编程代码便是 "Hello World!& ...
[转帖]helm模板文件chart编写语法详解
helm模板文件chart编写语法详解 https://blog.51cto.com/qujunorz/2421328 需要学习一下. charts编写介绍开始快速创建一个chart模板,helm ...
KAFA优点和缺点
我们上一期的Kafka教程中,我们讨论了Kafka的Books.今天,我们将讨论卡夫卡的优势和劣势.因为,在使用之前了解任何技术的局限性非常重要,在优点的情况下也是如此.所以,让我们详细讨论卡夫卡优势 ...
树卷积神经网络Tree-CNN: A Deep Convolutional Neural Network for Lifelong Learning
树卷积神经网络Tree-CNN: A Deep Convolutional Neural Network for Lifelong Learning 2018-04-17 08:32:39 看_这是一 ...
基于node.js 的 websocket的移动端H5直播开发
这一篇介绍一下基于node.js 的 websocket的移动端H5直播开发, 下载文章底部的源码,我是用vscode打开, 首先在第一个终端运行 npm run http-server 这个指令是运 ...
java之struts2之文件下载
1.在实际应用开发中,文件下载功能也非常常见. 2.最简单的文件下载方式是通过超链接来进行文件下载: <body> <a href="download/s.txt" ...
关于Shareppoint客户端对象模型和Shareppoint根据内部名称获取字段值的随笔
实际上,每个SharePoint字段实际上有两个名称,一个是“标题”(Title,有时候也把它叫做“显示名称”),一个是“内部名称”(Internal Name).平时用户在列表视图界面上看到的,都是 ...
jdk安装以及Java环境配置
jdk其实自己大一的时候就已经装过,java环境也配置过,但是随着后面学习的东西越来越多,要安装的软件也越来越多,一开始没有安装路径的概念,好多东西都放的很乱.接着这次自己复习java的机会,于是重新 ...
深入理解JVM(一) -- 自动内存管理机制
Java运行时数据区域分为:程序计数器,虚拟机栈,本地方法栈,Java堆,方法区,运行时常量池,直接内存,结构如下: 1.程序计数器: 是一块较小的内存空间,可以看作是当前线程所执行的字节码的行号指示 ...

Spark Streaming的原理

Spark Streaming的原理的更多相关文章

随机推荐

热门专题