Spark分析之Dependency

在Spark中，每一个RDD是对于数据集在某一状态下的表现形式，比如说：map、filter、group by等都算一次操作，这个状态有可能是从前一状态转换而来的；

因此换句话说一个RDD可能与之前的RDD(s)有依赖关系；RDD之间存在依赖关系；

根据依赖关系的不同，可以将RDD分成两种不同的类型：宽依赖和窄依赖。

窄依赖：一个父RDD的partition至多被子RDD的某个partition使用一次；

宽依赖：一个父RDD的partition会被子RDD的partition使用多次，需要shuffle操作；

图中方框描述：外面的大方框是一个RDD，里面的小方块是RDD中的partition，多个partition组成一个RDD

窄依赖

定义：一个父RDD的partition至多被子RDD的某个partition使用一次；

不需要shuffle，partition范围不会改变，一个partition经过transform后还是一个partition，虽然内容发生了变化；可以进行pipeline计算，快速完成；

在某个节点上可以一次性全部计算完所有的父partition（pipeline流水式的计算方式）：

a.map().filter().reduceByKey() 这样多步操作一次性计算完毕，而不需要第一步执行完后保存起来，第二步再去读取再计算再存储。。。。。。

窄依赖可以在单节点上完成运算，非常高效。

容错：某个partition挂了，快速将丢失的partition并行计算出来。

容错和计算速度都比宽依赖强。

窄依赖又分为两种：

OneToOneDependency：一对一的依赖，一父一子，最典型的是map/filter。

RangeDependency：一定范围的RDD直接对应，最典型的是Union。

　　parent RDD的某个分区的partitions对应到child RDD中某个区间的partitions；
　　union：多个parent RDD合并到一个chind RDD，故每个parent RDD都对应到child RDD中的一个区间；
　　注意：union不会把多个partition合并成一个partition，而是简单的把多个RDD的partitions放到一个RDD中，partition不会发生变化。

宽依赖

定义：一个父RDD的partition会被子RDD的partition使用多次；只能前面的算好后才能进行后续的计算；只有等到父partition的所有数据都传输到各个节点后才能计算（经典的mapreduce场景）

容错：某个partition挂了，要计算前面所有的父partition，代价很大。

spark是把map部分的数据计算完成后物化到map端的磁盘上，挂了之后直接从磁盘中读取即可。

class ShuffleDependency[K, V](

    @transient rdd: RDD[_ <: Product2[K, V]],

    val partitioner: Partitioner,

    val serializerClass: String = null)

  extends Dependency(rdd.asInstanceOf[RDD[Product2[K, V]]]) {

  val shuffleId: Int = rdd.context.newShuffleId()

}

首先：需要基于PairRDD，因为一般需要依据key进行shuffle，所以数据结构往往是key-value；
其次：由于需要shuffle，所以就需要给出partitioner；
然后：shuffle不像map可以在local运行，往往需要网络传输或存储，所以需要serializerClass；
最后：每个shuffle需要分配一个全局的id，context.newShuffleId()的实现就是把全局id累加；

Spark分析之Dependency的更多相关文章

[大数据从入门到放弃系列教程]第一个spark分析程序
[大数据从入门到放弃系列教程]第一个spark分析程序原文链接:http://www.cnblogs.com/blog5277/p/8580007.html 原文作者:博客园--曲高终和寡 **** ...
使用Spark分析拉勾网招聘信息(一):准备工作
本系列专属github地址:https://github.com/ios122/spark_lagou 前言我觉得如果动笔,就应该努力地把要说的东西表达清楚.今后一段时间,尝试下系列博客文章.简单说 ...
使用Spark分析拉勾网招聘信息(四): 几个常用的脚本与图片分析结果
概述前一篇文章,已经介绍了BMR的基础用法,再结合Spark和Scala的文档,我想应该是可以开始你的数据分析之路的.这一篇文章,着重进行一些简单的思路上的引导和分析.如果你分析招聘数据时,卡在了某 ...
使用Spark分析拉勾网招聘信息(三): BMR 入门
简述本文,意在以最小的篇幅,来帮助对大数据和Spark感兴趣的小伙伴,能尽快搭建一个可用的Spark开发环境.力求言简意赅.文章,不敢自称BMR的最佳实践,但绝对可以帮助初学者,迅速入门,能够专心于 ...
使用Spark分析拉勾网招聘信息(二): 获取数据
要获取什么样的数据? 我们要获取的数据,是指那些公开的,可以轻易地获取地数据.如果你有完整的数据集,肯定是极好的,但一般都很难通过还算正当的方式轻易获取.单就本系列文章要研究的实时招聘信息来讲,能获取 ...
Spark分析之Job Scheduling Process
经过前面文章的SparkContext.DAGScheduler.TaskScheduler分析,再从总体上了解Spark Job的调度流程 1.SparkContext将job的RDD DAG图提交 ...
Spark分析之TaskScheduler
TaskScheduler概述: TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度.主要功能如下: 1.一个TaskScheduler只为一 ...
Spark分析之SparkContext启动过程分析
SparkContext作为整个Spark的入口,不管是spark.sparkstreaming.spark sql都需要首先创建一个SparkContext对象,然后基于这个SparkContext ...
Spark分析之DAGScheduler
DAGScheduler概述:是一个面向Stage层面的调度器: 主要入参有: dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, ...

随机推荐

37行代码实现一个简单的打游戏AI
不废话,直接上码,跟神经网络一点关系都没有,这37行代码只能保证电脑的对敌牺牲率是1:10左右,如果想手动操控,注释掉autopilot后边的代码即可. 哪个大神有兴趣可以用tensorflow或者s ...
C++ 写的地图控件，支持google 百度在线离线地图
C++处理google 百度地图在网上查阅了很多都是通过浏览器方式显示地图信息, 跟我目前项目很不符合, 所以仔细研究了一下C++方式显示地图.通过地图投影以及墨卡托投影,在通过平面地图计算经纬度. ...
Python 第三方库进度条模块 tqdm的使用方法
使用方法一: tqdm tqdm(list)方法可以传入任意一种list,比如数组,同时tqdm中不仅仅可以传入list, 同时可以传入所有带len方法的可迭代对象,这里只以list对象为例: fro ...
配置搭建与使用redis
redis单点.redis主从.redis哨兵 sentinel,redis集群cluster配置搭建与使用 redis是如今被互联网公司使用最广泛的一个中间件,我们打开GitHub搜索redis,边 ...
Battle City 优先队列+bfs
Many of us had played the game "Battle city" in our childhood, and some people (like me) e ...
（5）subprocess模块（子进程模块）
什么是进程一个程序运行起来了就是一个进程但是程序本身不是进程,程序是一对代码而已所以进程就是一个抽象的概念,就是程序运行起来的一个过程进程和进程之间是相互独立的,互不影响如何理解子进程和父进 ...
JQ和JS获取span标签的内容(有的情况下JQ达不到预期的目的就用JS)
https://www.cnblogs.com/anniey/p/6439021.html <span id="content">‘我是span标签的内容’</s ...
Sublime Text3 使用
注: 1.绿色版的某些插件有问题,导致某些插件无法使用,而且无法删除和安装,需要删除Data/Cache目录,重新安装无法使用的插件 2.绿色版无法编译python,可使用安装版安装sublime后, ...
LG3377 【模板】左偏树（可并堆）
好博客 1 2 上面那个用数组写的跑的快,且便于封装,就用他的代码了. 代码 #include<cstdlib> #include<cstdio> #include<cm ...
knowledge-repo 知识管理简单试用
knowledge-repo 是airbnb 开源的知识管理工具,只集成git 数据库等类型的存储安装 pip install --upgrade "knowledge-repo[all] ...

Spark分析之Dependency

Spark分析之Dependency的更多相关文章

随机推荐

热门专题