前言

　　用Spark有一段时间了，但是感觉还是停留在表面，对于Spark的RDD的理解还是停留在概念上，即只知道它是个弹性分布式数据集，其他的一概不知

有点略显惭愧。下面记录下我对RDD的新的理解。

官方介绍

　　弹性分布式数据集。 RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

问题

只要你敢问度娘RDD是什么，包你看到一大片一模一样的答案，都是说这样的概念性的东西，没有任何的价值。

我只想知道 RDD为什么是弹性而不是不弹性， RDD到底是怎么存数据，在执行任务的过程中是咋哪个阶段读取数据。

什么是弹性

我的理解如下（若有误或不足，烦请指出更正）：

1. RDD可以在内存和磁盘之间手动或自动切换

2. RDD可以通过转换成其他的RDD，即血统

3. RDD可以存储任意类型的数据

存储的内容是什么

根据编写Spark任务的代码来看，很直观的感觉是RDD就是一个只读的数据，例如 rdd.foreach(println)

但是不是， RDD其实不存储真是的数据，只存储数据的获取的方法，以及分区的方法，还有就是数据的类型。

百闻不如一见，下面看看RDD的源码：

//其他的代码删除了，主要保留了它的两个抽象方法
abstract class RDD[T: ClassTag](

    @transient private var _sc: SparkContext,

    @transient private var deps: Seq[Dependency[_]]

  ) extends Serializable with Logging {

 
  //计算某个分区数据的方法 ，将某个分区的数据读成一个 Iterator
  def compute(split: Partition, context: TaskContext): Iterator[T]

  //计算分区信息 只会被调用一次

  protected def getPartitions: Array[Partition]

}

　　通过RDD的这两个抽象方法，我们可以看出：

RDD其实是不存储真是数据的，存储的的只是真实数据的分区信息getPartitions，还有就是针对单个分区的读取方法 compute

到这里可能就有点疑惑，要是RDD只存储这分区信息和读取方法，那么RDD的依赖信息是怎么保存的？

其实RDD是有保存的，只是我粘贴出的只是RDD顶层抽象类，还要一点需要注意，RDD只能向上依赖，而真正实现这两个方法的RDD都是整个任务的输入端，即处于RDD血统的顶层，初代RDD

举个例子：val rdd = sc.textFile(...); val rdd1 = rdd.map(f) . 这里的 rdd是初代RDD，是没有任何依赖的RDD的，所以没就没有保存依赖信息，而 rdd1是子代RDD，那么它就必须得记录下自己是来源于谁，也就是血统，

下面展示的是HadoopRDD和 MapPartitionsRDD

//负责记录数据的分区信息和读取方法

class HadoopRDD[K, V](
　　@transient sc: SparkContext,
　　broadcastedConf: Broadcast[SerializableConfiguration],
　　initLocalJobConfFuncOpt: Option[JobConf => Unit],
　　inputFormatClass: Class[_ <: InputFormat[K, V]],
　　keyClass: Class[K],
　　valueClass: Class[V],
　　minPartitions: Int)
　　extends RDD[(K, V)](sc, Nil) with Logging {

override def getPartitions: Array[Partition] = { ***篇幅所限自己查看**}

override def compute(theSplit: Partition, context: TaskContext): InterruptibleIterator[(K, V)] = {***篇幅所限自己查看**}

}

//子代RDD的作用起始很简单就是记录初代RDD到底在干了什么才得到了自己

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](

    prev: RDD[T],  //上一代RDD

    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)  //初代RDD生成自己的方法

    preservesPartitioning: Boolean = false)

  extends RDD[U](prev) {

  override val partitioner = if (preservesPartitioning) firstParent[T].partitioner else None

  override def getPartitions: Array[Partition] = firstParent[T].partitions

  override def compute(split: Partition, context: TaskContext): Iterator[U] =

    f(context, split.index, firstParent[T].iterator(split, context))

}

　　到这里，我们就大概了解了RDD到底存储了什么东西，

初代RDD: 处于血统的顶层，存储的是任务所需的数据的分区信息，还有单个分区数据读取的方法，没有依赖的RDD，因为它就是依赖的开始。

子代RDD: 处于血统的下层，存储的东西就是初代RDD到底干了什么才会产生自己，还有就是初代RDD的引用

现在我们基本了解了RDD里面到底存储了些什么东西，那么问题就来了，到底读取数据发生在什么时候。

数据读取发生在什么时候

直接开门见山的说，数据读取是发生在运行的Task中，也就是说，数据是在任务分发的executor上运行的时候读取的，上源码：

private[spark] class ResultTask[T, U](

    stageId: Int,

    stageAttemptId: Int,

    taskBinary: Broadcast[Array[Byte]],

    partition: Partition,

    @transient locs: Seq[TaskLocation],

    val outputId: Int,

    internalAccumulators: Seq[Accumulator[Long]])

  extends Task[U](stageId, stageAttemptId, partition.index, internalAccumulators)

  with Serializable {

  @transient private[this] val preferredLocs: Seq[TaskLocation] = {

    if (locs == null) Nil else locs.toSet.toSeq

  }

  override def runTask(context: TaskContext): U = {

    // Deserialize the RDD and the func using the broadcast variables.

    val deserializeStartTime = System.currentTimeMillis()

    val ser = SparkEnv.get.closureSerializer.newInstance()

    val (rdd, func) = ser.deserialize[(RDD[T], (TaskContext, Iterator[T]) => U)](

      ByteBuffer.wrap(taskBinary.value), Thread.currentThread.getContextClassLoader)

    _executorDeserializeTime = System.currentTimeMillis() - deserializeStartTime

    metrics = Some(context.taskMetrics)

    func(context, rdd.iterator(partition, context))  //这里调用了 rdd.iterator ， 下面看看RDD的这个方法

  }

  // This is only callable on the driver side.

  override def preferredLocations: Seq[TaskLocation] = preferredLocs

  override def toString: String = "ResultTask(" + stageId + ", " + partitionId + ")"

}

final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
　　if (storageLevel != StorageLevel.NONE) {

//先判断是否有缓存，有则直接从缓存中取，没有就从磁盘中取出来，然后再执行缓存操作
　　　　SparkEnv.get.cacheManager.getOrCompute(this, split, context, storageLevel)
　　} else {

//直接从磁盘中读取或从检查点中读取
　　　　computeOrReadCheckpoint(split, context)
　　}
}

　　在spark中的任务最终是会被分解成多个TaskSet到executor上运行，TaskSet的划分是根据是否需要shuffle来的。

在spark中就只有两种Task，一种是ResultTask ，一种是ShuffleTask，两种Task都是以相同的方式读取RDD的数据。

Spark RDD到底是个什么东西的更多相关文章

【spark 深入学习 03】Spark RDD的蛮荒世界
RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂:但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单.浅显易懂的词汇描述.不想用学 ...
spark RDD 常见操作
fold 操作区别与 co 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.so ...
关于Spark RDD 的认识
一.基本认识 RDD 是Spark大数据计算引擎中,抽象的一种数据结构. RDD(Resilient Distributed Dataset),中文意思是弹性分布式数据集,它是Spark中的基本抽象. ...
通过WordCount解析Spark RDD内部源码机制
一.Spark WordCount动手实践我们通过Spark WordCount动手实践,编写单词计数代码:在wordcount.scala的基础上,从数据流动的视角深入分析Spark RDD的数据 ...
Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
Spark RDD API详解(一) Map和Reduce
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...
Spark RDD aggregateByKey
aggregateByKey 这个RDD有点繁琐,整理一下使用示例,供参考直接上代码 import org.apache.spark.rdd.RDD import org.apache.spark. ...
Spark RDD解密
1. 基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数 ...
Spark - RDD（弹性分布式数据集）
org.apache.spark.rddRDDabstract class RDD[T] extends Serializable with Logging A Resilient Distribut ...

随机推荐

使用curl 下载HTML
简单的一个curl小例子: #include <iostream> #include <string> #include <sstream> #include &l ...
[.NET领域驱动设计实战系列]专题十一：.NET 领域驱动设计实战系列总结
一.引用其实在去年本人已经看过很多关于领域驱动设计的书籍了,包括Microsoft .NET企业级应用框架设计.领域驱动设计C# 2008实现.领域驱动设计:软件核心复杂性应对之道.实现领域驱动设计 ...
angular中的MVVM模式
在开始介绍angular原理之前,我们有必要先了解下mvvm模式在angular中运用.虽然在angular社区一直将angular统称为前端MVC框架,同时angular团队也称它为MVW(What ...
Windbg用法详解
工作空间 WinDBG的工作空间中保存了以下几种信息调试会话状态: 包括断点,打开的源文件,用户定义的别名(alias)等. 调试器设置:包括符号文件路径,可执行映像文件路径,源文件路径,用I+/I ...
java提高篇(八)----详解内部类
可以将一个类的定义放在另一个类的定义内部,这就是内部类. 内部类是一个非常有用的特性但又比较难理解使用的特性(鄙人到现在都没有怎么使用过内部类,对内部类也只是略知一二). 第一次见面内部类我们从外面 ...
Windows内存小结
以前写过一篇理解程序内存, 当时主要是针对用户态,下面再稍微深入一点: 我们以32位程序为例(不启用AWE), 总共4G虚拟空间,其中低2G属于用户态, 高2G属于操作系统内核, 每个程序都有自己的低 ...
Unity3D使用经验总结缺点篇
不论是从官方手册,还是各种第三方教程,几乎涉及到的,都是讲如何使用U3D,以及U3D的优点. 虽然我是用的一个让步语气,但请不要否认U3D的这些优点,它们的确存在. 但对于一个引擎的特性来说,优点与缺 ...
(翻译)正确实施DevOps-The Lay of the Land
原文地址:http://www.drdobbs.com/architecture-and-design/getting-devops-right-the-lay-of-the-land/2400626 ...
细说.NET中的多线程 (四使用锁进行同步)
通过锁来实现同步排它锁主要用来保证,在一段时间内,只有一个线程可以访问某一段代码.两种主要类型的排它锁是lock和Mutex.Lock和Mutex相比构造起来更方便,运行的也更快.但是Mutex可以 ...
Lucene系列-索引文件
本文介绍下lucene生成的索引有哪些文件组成,每个文件包含了什么信息.基于Lucene 4.10.0. 数据结构索引(index)包含了存储的文档(document)正排.倒排信息,用于文本搜索. ...

Spark RDD到底是个什么东西

前言