Spark-Dependency

1、Spark中採用依赖关系(Dependency)表示rdd之间的生成关系。Spark可利用Dependency计算出失效的RDD。在每一个RDD中都存在一个依赖关系的列表

  private var dependencies_ : Seq[Dependency[_]] = null

用以记录各rdd中各partition的parent partition。

2、Spark中存在两类Dependency：

1）NarrowDependency表示的是一个父partition仅相应于一个子partition。这种依赖关系是不须要shuffle的。在这类依赖中。能够依据getParents方法获取某个partition的父partitions：

/**

 * :: DeveloperApi ::

 * Base class for dependencies where each partition of the parent RDD is used by at most one

 * partition of the child RDD.  Narrow dependencies allow for pipelined execution.

 */

@DeveloperApi

abstract class NarrowDependency[T](rdd: RDD[T]) extends Dependency(rdd) {

  /**

   * 唯一的接口。获得该partition的全部parent partition

   * Get the parent partitions for a child partition.

   * @param partitionId a partition of the child RDD

   * @return the partitions of the parent RDD that the child partition depends upon

   */

  def getParents(partitionId: Int): Seq[Int]

}

这类又可分为：

a、OneToOneDependency：表示一一相应的依赖关系，因为在这样的依赖中父partition与子partition Id是一致的，所以getParents直接原样返回。相应的转换操作有map和filter

class OneToOneDependency[T](rdd: RDD[T]) extends NarrowDependency[T](rdd) {

  /**

   * 事实上partitionId就是partition在RDD中的序号, 所以假设是一一相应, 那么parent和child中的partition的序号应该是一样的

   */

  override def getParents(partitionId: Int) = List(partitionId)//原样返回

}

b、PruneDependency(org.apache.spark.rdd.PartitionPruningRDDPartition)：未详

/**

 * Represents a dependency between the PartitionPruningRDD and its parent. In this

 * case, the child RDD contains a subset of partitions of the parents'.

 */

private[spark] class PruneDependency[T](rdd: RDD[T], @transient partitionFilterFunc: Int => Boolean)

  extends NarrowDependency[T](rdd) {

  @transient

  val partitions: Array[Partition] = rdd.partitions

    .filter(s => partitionFilterFunc(s.index)).zipWithIndex

    .map { case(split, idx) => new PartitionPruningRDDPartition(idx, split) : Partition }

  override def getParents(partitionId: Int) = {

    List(partitions(partitionId).asInstanceOf[PartitionPruningRDDPartition].parentSplit.index)

  }

}

c、RangeDependency：这样的是父rdd的连续多个partitions相应子rdd中的连续多个partitions。相应的转换有union

/**Union

 * :: DeveloperApi ::

 * Represents a one-to-one dependency between ranges of partitions in the parent and child RDDs.

 * @param rdd the parent RDD

 * @param inStart the start of the range in the parent RDD parent RDD中区间的起始点

 * @param outStart the start of the range in the child RDD child RDD中区间的起始点

 * @param length the length of the range

 */

@DeveloperApi

class RangeDependency[T](rdd: RDD[T], inStart: Int, outStart: Int, length: Int)

  extends NarrowDependency[T](rdd) {

  override def getParents(partitionId: Int) = {

    if (partitionId >= outStart && partitionId < outStart + length) {//推断partitionId的合理性,必须在child RDD的合理partition范围

      List(partitionId - outStart + inStart)//算出parent RDD中相应的partition id

    } else {

      Nil

    }

  }

}

2）WideDependency：这样的依赖是指一个父partition能够相应子rdd中多个partitions。因为须要对父partition进行划分，故须要用到shuffle，而shuffle通常是採用键值对的。

这里为每一个shuffle分配了一个全局唯一的shuffleId。

为了进行shuffle。须要指定怎样进行shuffle，这相应于參数partitioner；因为shuffle是须要网络传输的。故须要进行序列化Serializer。在宽依赖中并无法获得partition相应的parent partitions？

/**

 * :: DeveloperApi ::

 * Represents a dependency on the output of a shuffle stage.

 * @param rdd the parent RDD

 * @param partitioner partitioner used to partition the shuffle output

 * @param serializer [[org.apache.spark.serializer.Serializer Serializer]] to use. If set to null,

 *                   the default serializer, as specified by `spark.serializer` config option, will

 *                   be used.

 */

@DeveloperApi

class ShuffleDependency[K, V](

    @transient rdd: RDD[_ <: Product2[K, V]],

    val partitioner: Partitioner,//须要给出partitioner, 指示怎样完毕shuffle

    val serializer: Serializer = null)//shuffle不象map能够在local进行, 往往须要网络传输或存储, 所以须要serializerClass

  extends Dependency(rdd.asInstanceOf[RDD[Product2[K, V]]]) {

  val shuffleId: Int = rdd.context.newShuffleId()//每一个shuffle须要分配一个全局的id, context.newShuffleId()的实现就是把全局id累加

  rdd.sparkContext.cleaner.foreach(_.registerShuffleForCleanup(this))

}

Spark-Dependency的更多相关文章

Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
在 Azure HDInsight 中安装和使用 Spark
Spark本身用Scala语言编写,运行于Java虚拟机(JVM).只要在安装了Java 6以上版本的便携式计算机或者集群上都可以运行spark.如果您想使用Python API需要安装Python解 ...
spark mllib配置pom.xml错误 Multiple markers at this line Could not transfer artifact net.sf.opencsv:opencsv:jar:2.3 from/to central (https://repo.maven.apache.org/maven2): repo.maven.apache.org
刚刚spark mllib,在maven repository网站http://mvnrepository.com/中查询mllib后得到相关库的最新dependence为: <dependen ...
Spark实战3:Maven_Java_HelloWorld
Spark独立开发应用( Java语言) 1 创建SimpleApp.java文件: /* SimpleApp.java */ import org.apache.spark.api.java.*; ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark RDD概念学习系列之rdd的依赖关系彻底解密（十九）
本期内容: 1.RDD依赖关系的本质内幕 2.依赖关系下的数据流视图 3.经典的RDD依赖关系解析 4.RDD依赖关系源码内幕 1.RDD依赖关系的本质内幕由于RDD是粗粒度的操作数据集,每个Tra ...
Spark IDEA开发环境构建
本文档基于IEDA构建spark maven应用. date: 2016/8/1 author: wangxl 1.下载IDEA https://www.jetbrains.com/idea/ 2.安 ...
CentOS7 安装spark集群
Spark版本 1.6.0 Scala版本 2.11.7 Zookeeper版本 3.4.7 配置虚拟机 3台虚拟机,sm,sd1,sd2 1. 关闭防火墙 systemctl stop firewa ...
Spark 2.2.0 文档中文版 Quick Start
原地址:http://spark.apache.org/docs/latest/quick-start.html 这篇指导对使用Spark提供了一个快速的介绍.我们首先介绍API,通过spark交互式 ...
Spark快速入门
Spark 快速入门本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...

随机推荐

【贪心】Gym - 101201I - Postman
题意:一个邮递员从数轴上原点出发,每次最多带K封信,往n个地方送信,每个地方有一定的需求的信件数,问你最少要跑的距离的总和是多少?一趟可以给多个地方去送. 显然优先往远的地方送比较优越,近的地方可以顺 ...
DoTA与人生
一个dota菜鸟的人生感悟接触Dota有了快3年之久,3年里可以经历很多东西,经历了很多东西之后就会有很多的感悟,有些感悟抽象的表达不出来,但是借助于dota,可以间接 ...
http://www.pass.org
http://www.pass.org/Learning/Recordings/Listing.aspx?category=conferences
Ping Pod不通问题定位及Ingress验证
Ping Pod网络问题不通定位记录 1.验证墙是否通 flannel默认使用8285端口作为UDP封装报文的端口,VxLan使用8472端口,下面命令验证一下确定其在8472端口 ip -d lin ...
合并table相同单元格的插件(基于jquery的)
正好项目中有个小需求, 要求把表格指定列中内容相同的单元格进行合并,本质上涉及的就是td的rowspan属性, 数出含相同内容单元格的个数, 然后给第一个与上一行内容不同的td其rowspan属性附上 ...
WINXP上安装及使用SqlMap之方法
1.首先下载SqlMap 点击下载.2.其次下载用于Windows系统的Python ……点击这里…… 3.然后安装Python:Python默认安装的路径是“C:\Python”(你也可以修改安装路 ...
python 实现简单的感知机
最近在自学机器学习,记录下一些学习记录如何用python实现一个简单的感知机需要安装numpy库,即下面用到的np 简单的说就是通过计算权重向量w和输入向量x的线性组合,判断该线性组合是否大于某 ...
C#程序输出信息到调试窗口的几种方式
网站项目: System.Diagnostics.Debug.WriteLine("aaa"); 控制项目:Console.WriteLine("bbb"); ...
（转）Android项目重构之路:架构篇
去年10月底换到了新公司,做移动研发组的负责人,刚开始接手android项目时,发现该项目真的是一团糟.首先是其架构,是按功能模块进行划分的,本来按模块划分也挺好的,可是,他却分得太细,总共分为了17 ...

Spark-Dependency

Spark-Dependency的更多相关文章

随机推荐

热门专题