Spark(六)【RDD的血缘依赖】

RDD依赖关系

1. RDD血缘关系

RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数据分区。

查看RDD的血缘方法：rdd.toDebugString

示例

/**

 * @description: RDD血缘依赖

 * @author: HaoWu

 * @create: 2020年08月04日

 */

object DependeciedTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4)).map(x => x)

    println(rdd1.toDebugString)

    println("----------------------")

    val rdd2 = rdd1.map(x=>x)

    println(rdd2.toDebugString)

    println("----------------------")

    val rdd3 = rdd2.groupBy(x=>x)

    println(rdd3.toDebugString)

    println("----------------------")

    rdd3.collect()

  }

}

结果

(8) MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

 |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

(8) MapPartitionsRDD[2] at map at DependeciedTest.scala:18 []

 |  MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

 |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

(8) ShuffledRDD[4] at groupBy at DependeciedTest.scala:21 []

 +-(8) MapPartitionsRDD[3] at groupBy at DependeciedTest.scala:21 []

    |  MapPartitionsRDD[2] at map at DependeciedTest.scala:18 []

    |  MapPartitionsRDD[1] at map at DependeciedTest.scala:15 []

    |  ParallelCollectionRDD[0] at makeRDD at DependeciedTest.scala:15 []

----------------------

2. 依赖关系

依赖关系：当前RDD和和父RDD之间的依赖关系

查看依赖关系方法：rdd.dependencies

示例

/**

 * @description: RDD依赖关系

 * @author: HaoWu

 * @create: 2020年08月04日

 */

object DependeciedTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")

    val sc = new SparkContext(conf)

    val rdd1 = sc.makeRDD(List(1, 2, 3, 4))

    println(rdd1.dependencies)

    println("----------------------")

    val rdd2 = rdd1.map(x=>x)

    println(rdd2.dependencies)

    println("----------------------")

    val rdd3 = rdd2.groupBy(x=>x)

    println(rdd3.dependencies)

    println("----------------------")

    rdd3.collect()

  }

}

结果

//不依赖于任何RDD

List()

----------------------

// 1对1(1父1子)依赖  (窄依赖),窄依赖不会划分Stage

List(org.apache.spark.OneToOneDependency@1eaf1e62)

----------------------

//1对N（1父多子）依赖（宽依赖或shuffle依赖）,宽依赖会划分Stage

List(org.apache.spark.ShuffleDependency@5fad41be)

----------------------

3. RDD的宽窄依赖

窄依赖 (NarrowDependency)

每一个父RDD的Partition只能被子RDD的一个Partition使用，窄依赖我们形象的比喻为独生子女。
宽依赖 (ShuffleDependency)

同一个父RDD的Partition被多个子RDD的Partition依赖，会引起Shuffle，宽依赖我们形象的比喻为多生。

4.任务划分

RDD任务切分中间分为：Application、Job、Stage和Task

Application：初始化一个SparkContext即生成一个Application；
Job：一个Action算子就会生成一个Job；
Stage：Stage等于宽依赖(ShuffleDependency)的个数加1；
Task：一个Stage阶段中，最后一个RDD的分区个数就是Task的个数。

注意：Application->Job->Stage->Task每一层都是1对n的关系。

Spark(六)【RDD的血缘依赖】的更多相关文章

Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
Spark之RDD依赖关系及DAG逻辑视图
RDD依赖关系为成两种:窄依赖(Narrow Dependency).宽依赖(Shuffle Dependency).窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition ...
【Spark】RDD的依赖关系和缓存相关知识点
文章目录 RDD的依赖关系宽依赖窄依赖血统 RDD缓存概述缓存方式 RDD的依赖关系 RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency) 和宽依赖 ...
Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...
Spark之RDD本质
1.在一个完整的数据转换流程里往往涉及到多个具有衍生关系RDD,这些RDD其实是通过逻辑串联来利用装饰器模式层层包装扩展的的一堆对象,这些相邻RDD间必须有继承关系.并且比Java中的装饰器来的更彻底 ...
【Spark】RDD(Resilient Distributed Dataset)究竟是什么？
目录基本概念官方文档概述含义 RDD出现的原因五大属性以单词统计为例,一张图熟悉RDD当中的五大属性解构图 RDD弹性 RDD特点分区只读依赖缓存 checkpoint 基本概念 ...
Spark核心——RDD
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集:R ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...

随机推荐

正则表达式匹配牛客网剑指Offer
正则表达式匹配牛客网剑指Offer 题目描述请实现一个函数用来匹配包括'.'和''的正则表达式.模式中的字符'.'表示任意一个字符,而''表示它前面的字符可以出现任意次(包含0次). 在本题中, ...
盘点 GitHub 年度盛会｜附视频
「Universe 2021」是 GitHub 于今年举办的开发者盛会,本次 Universe 2021 大会采用线上直播模式,为期两天已于上周落下帷幕. 这是 GitHub 举办的一年一度开发者盛会 ...
Go websocket EOF bug
背景使用的 golang.org/x/net/websocket 包,前端一发来消息就报错 if err = websocket.Message.Receive(ws, &msg); err ...
split，cdn，shell脚本，tmux，记一次往国外服务器传大文件的经历
需求是这样的:将一个大概680M的Matlab数据文件传到国外某所大学的服务器上,服务器需要连接VPN才能访问,由于数据文件太大,而且如果我直接ssh连过去或者用ftp传输,那么中间很可能中断. ps ...
JMeter跨线程组保持登录（多线程组共享cookie）
使用__setProperty设置全局变量: 1.jmeter中创建一个登录请求,然后执行,察看结果树-->查看返回cookie信息,我的是在Response data中的 Response h ...
Python MySSH 实现剧本执行器
通过封装Paramiko这个SSH模块,我们可以实现远程批量管理Linux主机,在上一篇文章中我们封装过一个MySSH类,这个类可以执行命令上传下载文件等,我们在这个类的基础上,实现一个简单的任务执行 ...
Effective Python（3）- 了解 bytes 与 str 的区别
Python 有两种类型可以表示字符序列 bytes:实例包含的是原始数据,即 8 位的无符号值(通常按照 ASCII 编码标准来显示) str:实例包含的是 Unicode 码点(code poin ...
scrapy获取58同城数据
1. scrapy项目的结构项目名字项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件核心功能文件 **************** init items 定义数据 ...
eclipse查看jar包源代码
方法一:将jd-gui集成在Eclipse中 https://jingyan.baidu.com/article/b24f6c8275536686bfe5daed.html 下载2个反编译文件, ...
[luogu4747]Intrinsic Interval
有一个结论,答案一定是所有包含其合法区间中$l$最大且$r$最小的证明比较容易,考虑两个合法区间有交,那么交必然合法,同时交也必然包含该区间,因此这个区间一定是合法的(取$l$最大的和$r$最小的两 ...