Spark Streaming揭秘 Day8 RDD生命周期研究

哎哟慰 2024-09-09 23:27:22 原文

Spark Streaming揭秘 Day8

RDD生命周期研究

今天让我们进一步深入SparkStreaming中RDD的运行机制。从完整的生命周期角度来说，有三个问题是需要解决的：

RDD到底是怎么生成的
具体执行的时候和Spark Core上的执行有所不同
运行之后对RDD如何处理，怎么对已有的RDD进行管理

今天主要聚焦于第一个问题。

从DStream开始

DStream类的注释很明确的说明了，DStream中包含以下内容：

DStream依赖的其他DStream(第一个DStream是外部数据源产生)
DStream产生RDD的时间间隔
产生RDD所使用到的方法*

可以看到，这里很明确说明了RDD的生成是在DStream中触发的。

关键方法

通过上一课的分析，我们可以知道JobScheduler是通过generateJob这个方法来与DStream交互的。

其中的关键是getOrCompute方法，再进一步分析此方法

其中调用了compute方法，而注释中也说明了，每个DStream都会通过compute方法生成RDD!!!

compute会由各个子类来进行实现，我们找一个常用的MappedDStream看一下。

通过这个代码，我们可以发现两点：

compute方法中实现了map这个方法的业务逻辑
compute方法会调用parent的getOrCompute

这说明了，RDD从后往前依赖，可以进行回溯，这也解释了为什么在JobScheduler中仅仅是对outputStream进行处理的原因。

RDD生成的完整过程

下面引用一张图将上面的说明进行一下串联：

在各个DStream中，都实现了getOrCompute方法，在数据未缓存的情况下，会调用compute方法向上追溯到DStream的源头，并将结果逐层向下传递，从而实现了完整的业务处理。

小结

我们会发现，对DStream的所有操作，其实都是作用在RDD上的Transformation操作，只是要加上一个时间维度。统一通过outputStreams的generateJob方法来触发实际的action调用，而处理逻辑和依赖关系，都封装在了DStream内部实现，充分体现了模块的自治性，非常值得借鉴。

欲知后事如何，且听下回分解

DT大数据每天晚上20：00YY频道现场授课频道68917580

Spark Streaming揭秘 Day8 RDD生命周期研究的更多相关文章

Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期
Spark Streaming揭秘 Day10 从BlockGenerator看接收数据的生命周期昨天主要介绍了SparkStreaming中对于Receiver的生命周期管理,下面让我们进入到Re ...
Spark Streaming揭秘 Day18 空RDD判断及程序中止机制
Spark Streaming揭秘 Day18 空RDD判断及程序中止机制空RDD的处理从API我们可以知道在SparkStreaming中,对于RDD的操作一般都是在foreachRDD和Tra ...
Spark Streaming揭秘 Day16 数据清理机制
Spark Streaming揭秘 Day16 数据清理机制今天主要来讲下Spark的数据清理机制,我们都知道,Spark是运行在jvm上的,虽然jvm本身就有对象的自动回收工作,但是,如果自己不进 ...
Spark Streaming揭秘 Day19 架构设计和运行机制
Spark Streaming揭秘 Day19 架构设计和运行机制今天主要讨论一些SparkStreaming设计的关键点,也算做个小结. DStream设计首先我们可以进行一个简单的理解:DSt ...
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展
Spark Streaming揭秘 Day9 从Receiver的设计到Spark框架的扩展 Receiver是SparkStreaming的输入数据来源,从对Receiver整个生命周期的设计,我们 ...
Spark Streaming揭秘 Day17 资源动态分配
Spark Streaming揭秘 Day17 资源动态分配今天,让我们研究一下一个在Spark中非常重要的特性:资源动态分配. 为什么要动态分配?于Spark不断运行,对资源也有不小的消耗,在默认 ...
Spark Streaming揭秘 Day14 State状态管理
Spark Streaming揭秘 Day14 State状态管理今天让我们进入下SparkStreaming的一个非常好用的功能,也就State相关的操作.State是SparkStreaming ...
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现
Spark Streaming揭秘 Day11 Receiver Tracker的具体实现 ReceiverTracker是运行在Driver上Receiver管理程序,今天让我们深入学习一下. 核心 ...
Spark Streaming揭秘 Day5 初步贯通源码
Spark Streaming揭秘 Day5 初步贯通源码引子今天,让我们从Spark Streaming最重要的三个环节出发,让我们通过走读,逐步贯通源码,还记得Day1提到的三个谜团么,让我们 ...

随机推荐

HBase-初看HBase
0.95版本hbase 单机模式下所有的服务都运行在一个JVM上,包括HBase和zookeeper.使用的是本地文件系统日志默认放在目录下logs文件夹中基本命令: create 'table' ...
使用c3p0连接池
首先我们需要知道为什么要使用连接池:因为jdbc没有保持连接的能力,一旦超过一定时间没有使用(大约几百毫秒),连接就会被自动释放掉,每次新建连接都需要140毫秒左右的时间而C3P0连接池会池化连接,随 ...
OPENSSL安装以及使用openssl中的AES加密和解密
OPENSSL安装:(VS) 1:第一步和所有的软件安装一样. 2:将OPENSSL中INLUCDE 和 LIB 分别拷贝到VS中VC的INLUCDE 和LIB目录下(我的机器上的目录是:C:\Pro ...
Linux逻辑卷创建
1.创建PV物理卷 [root@localhost ~]# pvcreate /dev/sda4 /dev/sda5 /dev/sda6 /dev/sda7 Physical volume “/ ...
IntelliJ IDEA使用之快捷键
1. 自动完成代码要完成代码只需使用 Set<SSHConfig> sshConfigs = webConfig.getSshConfigs(); webConfig.getSshCo ...
xml版本学生管理系统
一: 需求描述学生成绩管理系统,使用xml存储学生信息,可以对学生信息进行增.删.删除操作. 主要目的:练习操作xml元素的增删改查二:代码结构 1:xml存储数据如下 exam.xml < ...
Hive的JDBC使用&并把JDBC放置后台运行
使用JDBC访问HIVE: 首先启动hive的JDBC服务. 进入hive的bin目录: 这样启动是启动到前台.如果要想启动到后台需要用到Linux的相关命令. 我们先把其放到前台看下效果,之后再把 ...
webstorm卡、闪退以及win10中jdk配置【转】
原文地址:webstorm卡.闪退以及win10中jdk配置今天 webstorm 突然一直处于 indexing 索引状态,然后就卡死,重装也无法解决. 搜了一下后,有人说使用 64 位客户端 ...
Commons Math - Primes
org.apache.commons.math3.primes.Primes 是关于质数操作的工具类. 1. public static boolean isPrime(int n) 判断 n 是否为 ...
第六节 ADO.NET
ADO.NET是一组为.NET编程人员提供数据访问服务的类,封装在System.Data.dll 中,是.NET框架的一部分,它是一种数据访问技术. 使用SQLServer数据提供程序类说明 Sq ...