1. RDD 的设计与运行原理

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。

在实际应用中，存在许多迭代式算法和交互式数据挖掘工具，这些应用场景的共同之处在于不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。而 Hadoop 中的 MapReduce 框架都是把中间结果写入到 HDFS 中，带来了大量的数据复制、磁盘 IO 和序列化开销，并且通常只支持一些特定的计算模式。而 RDD 提供了一个抽象的数据架构，从而让开发者不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同 RDD 之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘 IO 和序列化开销。

1.1. RDD 概念

一个 RDD 就是一个分布式对象集合，提供了一种高度受限的共享内存模型，其本质上是一个只读的分区记录集合，不能直接修改。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段，并且一个 RDD 的不同分区可以保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。

RDD 提供了一组丰富的操作以支持常见的数据运算，分为“行动”（Action）和“转换”（Transformation）两种类型，前者用于执行计算并指定输出的形式，后者指定 RDD 之间的相互依赖关系。RDD 提供的转换接口都非常简单，都是类似 map 、filter 、groupBy 、join 等粗粒度的数据转换操作，而不是针对某个数据项的细粒度修改。因此，RDD 比较适合对于数据集中元素执行相同操作的批处理式应用，而不适合用于需要异步、细粒度状态的应用，比如 Web 应用系统、增量式的网页爬虫等。

RDD 的典型的执行过程如下：

读入外部的数据源（或者内存中的集合）进行 RDD 创建；
RDD 经过一系列的 “转换” 操作，每一次都会产生不同的 RDD，供给下一个转换使用；
最后一个 RDD 经过 “行动” 操作进行处理，并输出指定的数据类型和值。

RDD 采用了惰性调用，即在 RDD 的执行过程中，所有的转换操作都不会执行真正的操作，只会记录依赖关系，而只有遇到了行动操作，才会触发真正的计算，并根据之前的依赖关系得到最终的结果。

下面以一个实例来描述 RDD 的实际执行过程，如下图所示，开始从输入中创建了两个 RDD，分别是 A 和 C，然后经过一系列的转换操作，最终生成了一个 F，这也是一个 RDD。注意，这些转换操作的执行过程中并没有执行真正的计算，基于创建的过程也没有执行真正的计算，而只是记录的数据流向轨迹。当 F 执行了行为操作并生成输出数据时，Spark 才会根据 RDD 的依赖关系生成有向无环图（DAG），并从起点开始执行真正的计算。正是 RDD 的这种惰性调用机制，使得转换操作得到的中间结果不需要保存，而是直接管道式的流入到下一个操作进行处理。

1.2. RDD 特性

总体而言，Spark 采用 RDD 以后能够实现高效计算的主要原因如下：

高效的容错性。在 RDD 的设计中，只能通过从父 RDD 转换到子 RDD 的方式来修改数据，这也就是说我们可以直接利用 RDD 之间的依赖关系来重新计算得到丢失的分区，而不需要通过数据冗余的方式。而且也不需要记录具体的数据和各种细粒度操作的日志，这大大降低了数据密集型应用中的容错开销。
中间结果持久化到内存。数据在内存中的多个 RDD 操作之间进行传递，不需要在磁盘上进行存储和读取，避免了不必要的读写磁盘开销；
存放的数据可以是 Java 对象，避免了不必要的对象序列化和反序列化开销。

1.3. RDD 之间的依赖关系

RDD 中的不同的操作会使得不同 RDD 中的分区会产生不同的依赖关系，主要分为窄依赖（Narrow Dependency）与宽依赖（Wide Dependency）。其中，窄依赖表示的是父 RDD 和子 RDD 之间的一对一关系或者多对一关系，主要包括的操作有 map、filter、union 等；而宽依赖则表示父 RDD 与子 RDD 之间的一对多关系，即一个父 RDD 转换成多个子 RDD，主要包括的操作有 groupByKey、sortByKey 等。

对于窄依赖的 RDD，可以以流水线的方式计算所有父分区，不会造成网络之间的数据混合。对于宽依赖的 RDD，则通常伴随着 Shuffle 操作，即首先需要计算好所有父分区数据，然后在节点之间进行 Shuffle。因此，在进行数据恢复时，窄依赖只需要根据父 RDD 分区重新计算丢失的分区即可，而且可以并行地在不同节点进行重新计算。而对于宽依赖而言，单个节点失效通常意味着重新计算过程会涉及多个父 RDD 分区，开销较大。此外，Spark 还提供了数据检查点和记录日志，用于持久化中间 RDD，从而使得在进行失败恢复时不需要追溯到最开始的阶段。在进行故障恢复时，Spark 会对数据检查点开销和重新计算 RDD 分区的开销进行比较，从而自动选择最优的恢复策略。

1.4. 阶段的划分

Spark 通过分析各个 RDD 的依赖关系生成了 DAG ，再通过分析各个 RDD 中的分区之间的依赖关系来决定如何划分阶段，具体划分方法是：在 DAG 中进行反向解析，遇到宽依赖就断开，遇到窄依赖就把当前的 RDD 加入到当前的阶段中；将窄依赖尽量划分在同一个阶段中，可以实现流水线计算。例如在下图中，首先根据数据的读取、转化和行为等操作生成 DAG。然后在执行行为操作时，反向解析 DAG，由于从 A 到 B 的转换和从 B、F 到 G 的转换都属于宽依赖，则需要从在宽依赖处进行断开，从而划分为三个阶段。把一个 DAG 图划分成多个 “阶段” 以后，每个阶段都代表了一组关联的、相互之间没有 Shuffle 依赖关系的任务组成的任务集合。每个任务集合会被提交给任务调度器（TaskScheduler）进行处理，由任务调度器将任务分发给 Executor 运行。

1.5. RDD 运行过程

通过上述对 RDD 概念、依赖关系和阶段划分的介绍，结合之前介绍的 Spark 运行基本流程，这里再总结一下 RDD 在 Spark 架构中的运行过程（如下图所示）：

创建 RDD 对象；
SparkContext 负责计算 RDD 之间的依赖关系，构建 DAG；
DAGSchedule 负责把 DAG 图反向解析成多个阶段，每个阶段中包含多个任务，每个任务会被任务调度器分发给工作节点上的 Executor 上执行。

Spark 中 RDD的运行机制的更多相关文章

Chrome扩展开发之二——Chrome扩展中脚本的运行机制和通信方式
目录: 0.Chrome扩展开发(Gmail附件管理助手)系列之〇——概述 1.Chrome扩展开发之一——Chrome扩展的文件结构 2.Chrome扩展开发之二——Chrome扩展中脚本的运行机制 ...
【Spark Core】任务运行机制和Task源代码浅析1
引言上一小节<TaskScheduler源代码与任务提交原理浅析2>介绍了Driver側将Stage进行划分.依据Executor闲置情况分发任务,终于通过DriverActor向exe ...
RDD的运行机制
1. RDD 的设计与运行原理 Spark 的核心是建立在统一的抽象 RDD 之上,基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成,从而在同一个应用程序中完成大数据计算任务 ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...
spark中RDD的转化操作和行动操作
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
【原创】大叔问题定位分享（27）spark中rdd.cache
spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-2 ...
Spark中RDD的常用操作（Python）
弹性分布式数据集(RDD) Spark是以RDD概念为中心运行的.RDD是一个容错的.可以被并行操作的元素集合.创建一个RDD有两个方法:在你的驱动程序中并行化一个已经存在的集合:从外部存储系统中引用 ...
spark中RDD的transformation&action
简介: 1,transformation是得到一个新的RDD,方式很多,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 2,action是得到一个值,或者一个结果(直接将RDDcache到 ...
php中session的运行机制
在PHP中session默认是以文件的形式存储于服务器的而客户端和服务端则是通过session_id来完成握手的,默认情况下PHP会将session_id存储于cookie中,用户每次请求时该ses ...

随机推荐

WPF ListboxItem 双击事件 Command绑定
<ListBox x:Name="Lb" HorizontalAlignment="Left" Height="600" Vertic ...
微信小程序把玩（十四）button组件
原文:微信小程序把玩(十四)button组件 button按钮用的算是最普遍的组件之一. 主要属性: wxml  <button type=&qu ...
C#高性能大容量SOCKET并发（五）：粘包、分包、解包
原文:C#高性能大容量SOCKET并发(五):粘包.分包.解包粘包使用TCP长连接就会引入粘包的问题,粘包是指发送方发送的若干包数据到接收方接收时粘成一包,从接收缓冲区看,后一包数据的头紧接着前一 ...
CoolFormat（Qt Creator也可管理VC的Project）
http://download.csdn.net/download/akof1314/8457593 https://github.com/akof1314/CoolFormat http://dow ...
MVC4使用SignalR出现$.connection is undefined错误备忘
SignalR使用过程中一定要注意js的引用顺序,否则就会出现$.connection is undefined脚本错误.
Delphi For Linux Compiler
Embarcadero is about to release a new Delphi compiler for the Linux platform. Here are some of the k ...
百度 Echarts 地图表 js 引用路径
使用地图表格,除了需echarts,还需zrender,自行下载JS文件: 目标,做成这样的效果:http://echarts.baidu.com/doc/example/map3.html ...
MotionManager 陀螺仪实现方式
题外话: 权利的游戏开播了,引用一句话: 布兰:一个人如果还把,他还能勇敢么? 奈德:人在害怕时候的勇敢,才是真的勇敢. 回归正题: 说下关于 CMMotionManage ...
[2017.02.23] Java8 函数式编程
以前学过Haskell,前几天又复习了其中的部分内容. 函数式编程与命令式编程有着不一样的地方,函数式编程中函数是第一等公民,通过使用少量的几个数据结构如list.map.set,以及在这些数据结构上 ...
SYN5307型数字式电秒表
SYN5307型数字式电秒表产品概述 SYN5307型数字式电秒表是由西安同步电子科技有限公司精心设计生产的一款多功能,高精度电秒表.该仪器采用高精度石英晶振作为测量基准,测量准确度高于一般的电秒表 ...

Spark 中 RDD的运行机制