SparkContext源码阅读

SparkContext是spark的入口，通过它来连接集群、创建RDD、广播变量等等。

class SparkContext(config: SparkConf) extends Logging with ExecutorAllocationClient {

 private val creationSite: CallSite = Utils.getCallSite()

//如果生命了2个sparkContext,则会使用warn来取代exception.防止退出

 private val allowMultipleContexts: Boolean =

    config.getBoolean("spark.driver.allowMultipleContexts", false)

..防止两个sparkcontext同时运行

  SparkContext.markPartiallyConstructed(this, allowMultipleContexts)

  private[spark] var preferredNodeLocationData: Map[String, Set[SplitInfo]] = Map()

  val startTime = System.currentTimeMillis()

//当提交任务执行spark-submit时，加载系统环境变量

  def this() = this(new SparkConf())

  def this(master: String, appName: String, conf: SparkConf) =

    this(SparkContext.updatedConf(conf, master, appName))

//preferredNodeLocationData 用于启动查找nodes，启动相应的container

  def this(

      master: String,

      appName: String,

      sparkHome: String = null,

      jars: Seq[String] = Nil,

      environment: Map[String, String] = Map(),

      preferredNodeLocationData: Map[String, Set[SplitInfo]] = Map()) =

  {

    this(SparkContext.updatedConf(new SparkConf(), master, appName, sparkHome, jars, environment))

    if (preferredNodeLocationData.nonEmpty) {

      logWarning("Passing in preferred locations has no effect at all, see SPARK-8949")

    }

    this.preferredNodeLocationData = preferredNodeLocationData

//构造函数

  private[spark] def this(master: String, appName: String) =

    this(master, appName, null, Nil, Map(), Map())

  private[spark] def this(master: String, appName: String, sparkHome: String) =

    this(master, appName, sparkHome, Nil, Map(), Map())

  private[spark] def this(master: String, appName: String, sparkHome: String, jars: Seq[String]) =

    this(master, appName, sparkHome, jars, Map(), Map())

  private[spark] def conf: SparkConf = _conf

//clone Conf，那么在运行时就不能被修改

def getConf: SparkConf = conf.clone()

def jars: Seq[String] = _jars

  def files: Seq[String] = _files

  def master: String = _conf.get("spark.master")

  def appName: String = _conf.get("spark.app.name")

  private[spark] def isEventLogEnabled: Boolean = _conf.getBoolean("spark.eventLog.enabled", false)

  private[spark] def eventLogDir: Option[URI] = _eventLogDir

  private[spark] def eventLogCodec: Option[String] = _eventLogCodec

//创建schedular

val (sched, ts) = SparkContext.createTaskScheduler(this, master)

    _schedulerBackend = sched

    _taskScheduler = ts

    _dagScheduler = new DAGScheduler(this)

    _heartbeatReceiver.ask[Boolean](TaskSchedulerIsSet)

//启动taskschedular

  _taskScheduler.start()

applicationId = _taskScheduler.applicationId()

    _applicationAttemptId = taskScheduler.applicationAttemptId()

    _conf.set("spark.app.id", _applicationId)

    _env.blockManager.initialize(_applicationId)

//创建一个新的RDD，通过step来增加元素

  def range(

      start: Long,

      end: Long,

      step: Long = 1,

      numSlices: Int = defaultParallelism): RDD[Long] = withScope {

    assertNotStopped()

    // when step is 0, range will run infinitely

    require(step != 0, "step cannot be 0")

    val numElements: BigInt = {

      val safeStart = BigInt(start)

      val safeEnd = BigInt(end)

      if ((safeEnd - safeStart) % step == 0 || safeEnd > safeStart ^ step > 0) {

        (safeEnd - safeStart) / step

      } else {

        (safeEnd - safeStart) / step + 1

      }

    }

    parallelize(0 until numSlices, numSlices).mapPartitionsWithIndex((i, _) => {

      val partitionStart = (i * numElements) / numSlices * step + start

      val partitionEnd = (((i + 1) * numElements) / numSlices) * step + start

      def getSafeMargin(bi: BigInt): Long =

        if (bi.isValidLong) {

          bi.toLong

        } else if (bi > 0) {

          Long.MaxValue

        } else {

          Long.MinValue

        }

      val safePartitionStart = getSafeMargin(partitionStart)

      val safePartitionEnd = getSafeMargin(partitionEnd)

      new Iterator[Long] {

        private[this] var number: Long = safePartitionStart

        private[this] var overflow: Boolean = false

        override def hasNext =

          if (!overflow) {

            if (step > 0) {

              number < safePartitionEnd

            } else {

              number > safePartitionEnd

            }

          } else false

        override def next() = {

          val ret = number

          number += step

          if (number < ret ^ step < 0) {

            overflow = true

          }

          ret

        }

      }

    })

  }

//创建一个RDD

def makeRDD[T: ClassTag](

      seq: Seq[T],

      numSlices: Int = defaultParallelism): RDD[T] = withScope {

    parallelize(seq, numSlices)

  }

//读取本地、HDFS的文件，返回一个String的字符串

  def textFile(

      path: String,

      minPartitions: Int = defaultMinPartitions): RDD[String] = withScope {

    assertNotStopped()

    hadoopFile(path, classOf[TextInputFormat], classOf[LongWritable], classOf[Text],

      minPartitions).map(pair => pair._2.toString)

  }

//加载一个二进制文件，

  @Experimental

  def binaryRecords(

      path: String,

      recordLength: Int,

      conf: Configuration = hadoopConfiguration): RDD[Array[Byte]] = withScope {

    assertNotStopped()

    conf.setInt(FixedLengthBinaryInputFormat.RECORD_LENGTH_PROPERTY, recordLength)

    val br = newAPIHadoopFile[LongWritable, BytesWritable, FixedLengthBinaryInputFormat](path,

      classOf[FixedLengthBinaryInputFormat],

      classOf[LongWritable],

      classOf[BytesWritable],

      conf = conf)

    val data = br.map { case (k, v) =>

      val bytes = v.getBytes

      assert(bytes.length == recordLength, "Byte array does not have correct length")

      bytes

    }

    data

  }

//获得一个为HADOOP sequenceFile给定键值对类型的RDD

  def sequenceFile[K, V](path: String,

      keyClass: Class[K],

      valueClass: Class[V],

      minPartitions: Int

      ): RDD[(K, V)] = withScope {

    assertNotStopped()

    val inputFormatClass = classOf[SequenceFileInputFormat[K, V]]

    hadoopFile(path, inputFormatClass, keyClass, valueClass, minPartitions)

  }

//1300发送一个广播变量到集群的每个节点

  def broadcast[T: ClassTag](value: T): Broadcast[T] = {

    assertNotStopped()

    if (classOf[RDD[_]].isAssignableFrom(classTag[T].runtimeClass)) {

      logWarning("Can not directly broadcast RDDs; instead, call collect() and "

        + "broadcast the result (see SPARK-5063)")

    }

    val bc = env.broadcastManager.newBroadcast[T](value, isLocal)

    val callSite = getCallSite

    logInfo("Created broadcast " + bc.id + " from " + callSite.shortForm)

    cleaner.foreach(_.registerBroadcastForCleanup(bc))

    bc

  }

SparkContext源码阅读的更多相关文章

SparkConf加载与SparkContext创建（源码阅读一）
即日起开始spark源码阅读之旅,这个过程是相当痛苦的,也许有大量的看不懂,但是每天一个方法,一点点看,相信总归会有极大地提高的.那么下面开始: 创建sparkConf对象,那么究竟它干了什么了类,从 ...
Spark源码阅读之存储体系--存储体系概述与shuffle服务
一.概述根据<深入理解Spark:核心思想与源码分析>一书,结合最新的spark源代码master分支进行源码阅读,对新版本的代码加上自己的一些理解,如有错误,希望指出. 1.块管理器B ...
【原】FMDB源码阅读（三）
[原]FMDB源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 FMDB比较优秀的地方就在于对多线程的处理.所以这一篇主要是研究FMDB的多线程处理的实现.而 ...
【原】FMDB源码阅读（二）
[原]FMDB源码阅读(二) 本文转载请注明出处 -- polobymulberry-博客园 1. 前言上一篇只是简单地过了一下FMDB一个简单例子的基本流程,并没有涉及到FMDB的所有方方面面,比 ...
【原】FMDB源码阅读（一）
[原]FMDB源码阅读(一) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言说实话,之前的SDWebImage和AFNetworking这两个组件我还是使用过的,但是对于 ...
【原】AFNetworking源码阅读（六）
[原]AFNetworking源码阅读(六) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言这一篇的想讲的,一个就是分析一下AFSecurityPolicy文件,看看AF ...
【原】AFNetworking源码阅读（五）
[原]AFNetworking源码阅读(五) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇中提及到了Multipart Request的构建方法- [AFHTTP ...
【原】AFNetworking源码阅读（四）
[原]AFNetworking源码阅读(四) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇还遗留了很多问题,包括AFURLSessionManagerTaskDe ...
【原】AFNetworking源码阅读（三）
[原]AFNetworking源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇的话,主要是讲了如何通过构建一个request来生成一个data tas ...

随机推荐

递归算法（二）——前缀转后缀
源码:pretopost.cpp #include "stdafx.h" #include <stdio.h> #include <stack> /**** ...
junit高级篇（参数化、打包测试）-实例代码
工程目录: 参数化测试,SquareTest.java: import static org.junit.Assert.*; import java.util.Arrays; import java. ...
SSM框架学习之高并发秒杀业务--笔记1-- 项目的创建和依赖
在慕课网上看了Java高并发秒杀API视屏后,觉得这个案例真的让我学到了很多,现在重新自己实现一遍,博客记下,顺便分析其中的要点. 第一步是项目的创建和依赖利用Maven去创建工程然后导入Idea中 ...
iOS开发UI篇—无限轮播（功能完善）
iOS开发UI篇—无限轮播(功能完善) 一.自动滚动添加并设置一个定时器,每个2.0秒,就跳转到下一条. 获取当前正在展示的位置. [self addNSTimer]; } -(void)addNS ...
NetworkReachable学习笔记
一．基本知识在需要联网的iPhone程序中,我们首先需要检查网络的状态,如果不能连接网络则告诉用户程序不能使用的原因是没有网络连接.在iPhone的SystemConfiguration框架里有提供 ...
1、android源代码下载及目录分析，和eclipser的跟踪
1.在eclipse中跟踪源代码:假如对mainactivity.java里面的activity按Ctrl+鼠标左键(前提已经导入android源代码:方法1:在项目点击右键,然后找到properti ...
2016 - 1 - 23 xml解析 -- 语法简介
一: XML的概念 1. 一种可拓展标记语言 2. 与json一样,也是一种常用的数据交互格式 3. 一般也叫XML文档---XML Document 二: XML语法 1.一个完整的XML文档一 ...
Qt + FFmpeg 本地音频播放器
http://pan.baidu.com/s/1hqoYXrI
Maven工程中的右键team
与资源库同步(S):在需要合并版本时使用提交(C):本地代码写入源码库更新(U):本地代码升级到服务器端版本在点击更新时,请注意: 如果当前项目有改动(甚至是比原来多了一个空格),则此时无法更新 ...
Linux上vi(vim)编辑器使用教程
vi(vim)是上Linux非常常用的编辑器,很多Linux发行版都默认安装了vi(vim).vi(vim)命令繁多但是如果使用灵活之后将会大大提高效率.vi是“visual interface”的缩 ...

SparkContext源码阅读

SparkContext源码阅读的更多相关文章

随机推荐

热门专题