DagScheduler 和 TaskScheduler

DagScheduler 和 TaskScheduler 的任务交接 spark 调度器分为两个部分, 一个是 DagScheduler, 一个是 TaskScheduler, DagScheduler 主要是用来把一个 Job 根据宽依赖划分为多个Stage(阶段), 对于划分出来的每个 stage 都抽象为一个 TaskSet任务集交给 TaskScheduler 来进行进一步的调度运行, 我们来看一张图, 来理清里面的概念, 我们用户编程使用的 RDD, 每个 RDD都有一个分区数,…

Spark核心作业调度和任务调度之DAGScheduler源码

前言:本文是我学习Spark 源码与内部原理用,同时也希望能给新手一些帮助,入道不深,如有遗漏或错误的,请在原文评论或者发送至我的邮箱 tongzhenguotongzhenguo@gmail.com 摘要: 1.作业调度核心--DAGScheduler 2.DAGScheduler类说明 2.1DAGScheduler 2.2ActiveJob 2.3Stage 2.4Task 3.工作流程 3.1划分Stage 3.2生成Job,提交Stage 3.3任务集的提交 3.4任务作业完成状态的监…

spark1.1.0源码阅读-dagscheduler and stage

1. rdd action ->sparkContext.runJob->dagscheduler.runJob def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iterator[T]) => U, partitions: Seq[Int], callSite: String, allowLocal: Boolean, resultHandler: (Int, U) => Unit, properties:…

TaskScheduler

一初始化在SparkContext初始化的时候,同时初始化三个对象.DAGScheduler,TaskScheduler,SchedulerBackend.DAGScheduler,前面已经讲到,做stage的划分及每个stage对应的task划分及任务提交,SchedulerBackend用于资源划分.本节讲TaskScheduler. private[spark] def schedulerBackend: SchedulerBackend = _schedulerBackend priv…

Spark源码分析 -- TaskScheduler

Spark在设计上将DAGScheduler和TaskScheduler完全解耦合, 所以在资源管理和task调度上可以有更多的方案现在支持, LocalSheduler, ClusterScheduler, MesosScheduler, YarnClusterScheduler 先分析ClusterScheduler, 即standalone的Spark集群上, 因为比较单纯不涉及其他的系统, 看看Spark的任务是如何被执行的 private var taskScheduler: T…

Spark源码分析 – DAGScheduler

DAGScheduler的架构其实非常简单, 1. eventQueue, 所有需要DAGScheduler处理的事情都需要往eventQueue中发送event 2. eventLoop Thread, 会不断的从eventQueue中获取event并处理 3. 实现TaskSchedulerListener, 并注册到TaskScheduler中, 这样TaskScheduler可以随时调用TaskSchedulerListener中的接口报告状况变更 TaskSchedulerListen…

【Spark】DAGScheduler源代码浅析

DAGScheduler DAGScheduler的主要任务是基于Stage构建DAG,决定每个任务的最佳位置记录哪个RDD或者Stage输出被物化面向stage的调度层.为job生成以stage组成的DAG.提交TaskSet给TaskScheduler运行又一次提交shuffle输出丢失的stage 每个Stage内.都是独立的tasks,他们共同运行同一个computefunction,享有同样的shuffledependencies.DAG在切分stage的时候是按照出现shuff…

spark 笔记 7: DAGScheduler

在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的.这是一个很重要的类.在看这个类实现之前,需要对actor模式有一点了解:http://en.wikipedia.org/wiki/Actor_model http://www.slideshare.net/YungLinHo/introduction-to-actor-model-and-akka 粗略知道actor模式怎么实现就可以了.另外,应该先看看DAG相关的概念…

Spark的StandAlone模式原理和安装、Spark-on-YARN的理解

Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark程序可以运行在Yarn.standalone.mesos等平台上,standalone是Spark提供的一个分布式运行平台,分为master和worker两个角色. Standalone模式安装:只要修改一个文件即可 Spark-env.sh为: (master没有做HA) #指定JAVA_HOME…

Spark调度管理（读书笔记）

Spark调度管理(读书笔记) 转载请注明出处:http://www.cnblogs.com/BYRans/ Spark调度管理本文主要介绍在单个任务内Spark的调度管理,Spark调度相关概念如下: Task(任务):单个分区数据及上的最小处理流程单元. TaskSet(任务集):由一组关联的,但互相之间没有Shuffle依赖关系的任务所组成的任务集. Stage(调度阶段):一个任务集对应的调度阶段. Job(作业):有一个RDD Action生成的一个或多个调度阶段所组成的一次计算作业…

Spark基本工作流程及YARN cluster模式原理(读书笔记)

Spark基本工作流程及YARN cluster模式原理转载请注明出处:http://www.cnblogs.com/BYRans/ Spark基本工作流程相关术语解释 Spark应用程序相关的几个术语: Worker:集群中任何可以运行Application代码的节点,类似于YARN中的NodeManager节点.在Spark on Yarn模式中指的就是NodeManager节点: Executor:Application运行在Worker 节点上的一个进程,该进程负责运行Task,并且…

Spark入门实战系列--4.Spark运行架构

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码: lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext…

大数据计算平台Spark内核解读

1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用.2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录.Spark利用1/10的节点数,把100TB数据的排序时间从72分钟提高到了23分钟. Spark在架构上包括内核部分和…

Spark源码系列（四）图解作业生命周期

这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know! 我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得. 下面讲一讲它所不为认知的一面,它和其它组件是如何交互的. Driver向Master注册Application过程 SparkContext实例化之后,在内部实例化两个很重要的类,DAGScheduler和TaskSched…

Spark(一): 基本架构及原理

Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势: Spark提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍…

Spark RDD简介与运行机制概述

RDD工作原理: 主要分为三部分:创建RDD对象,DAG调度器创建执行计划,Task调度器分配任务并调度Worker开始运行. SparkContext(RDD相关操作)→通过(提交作业)→(遍历RDD拆分stage→生成作业)DAGScheduler→通过(提交任务集)→任务调度管理(TaskScheduler)→通过(按照资源获取任务)→任务调度管理(TaskSetManager) 举例:以下面一个按 A-Z 首字母分类,查找相同首字母下不同姓名总个数的例子来看一下 RDD 是如何运行起来的…

Spark是一种分布式的计算方案

Spark的安装基于HDFS,所以我们要设置hadoop的配置文件,所以spark的存储不是其主要的功能点,而spark作为分布式生态中的角色是一种计算模式(其他的计算模式,比如MR,Storm,spark,tez). vim spark-env.shexport SCALA_HOME=/path/to/scala-2.10.4 export JAVA_HOME=/usr/java/jdkexport HADOOP_HOME=/usr/local/hadoop-2.7.0export HAD…

Spark系列(四)整体架构分析

架构流程图说明 Driver端流程说明(Standalone模式) 使用spark-submit提交Spark应用程序Application. 通过反射的方式创建和构造一个DriverActor进程(Driver进程). SparkContext初始化,构造DAGScheduler和TaskScheduler. 每执行到一个Action操作就会创建一个job,该job会提交到DAGScheduler,划分为多个stage然后为每个stage创建一个TaskSet. TaskScheduler…

Spark系列(三)SparkContext分析

SparkContext初始化流程图其它说明: 在createTaskScheduler会根据不同的提交模式创建backend对象(如本地模式为LocalBackend). 在SparkDeploySchedulerBackend中构造ApplicationDescription对象appDesc,该对象描述了Application最大需要多少CPU core,每个slave上需要多少内存. 在DAGScheduler和TaskScheduler对象初始化完成后,每执行到一个Action操作就…

Eclipse的下载、安装和WordCount的初步使用（本地模式和集群模式）

包括: Eclipse的下载 Eclipse的安装 Eclipse的使用本地模式或集群模式 Scala IDE for Eclipse的下载.安装和WordCount的初步使用(本地模式和集群模式) IntelliJ IDEA的下载.安装和WordCount的初步使用(本地模式和集群模式) 我们知道,对于开发而言,IDE是有很多个选择的版本.如我们大部分人经常用的是如下. Eclipse *版本 Eclipse *下载现在啊,在业界,用java语言,开发是霸主地位. 比如,一个高级的高…

IntelliJ IDEA的下载、安装和WordCount的初步使用（本地模式和集群模式）

包括: IntelliJ IDEA的下载 IntelliJ IDEA的安装 IntelliJ IDEA中的scala插件安装用SBT方式来创建工程或选择Scala方式来创建工程本地模式或集群模式我们知道,对于开发而言,IDE是有很多个选择的版本.如我们大部分人经常用的是如下. Eclipse *版本 Eclipse *下载而我们知道,对于spark的scala开发啊,有为其专门设计的eclipse,Scala IDE for Eclipse Scala IDE for Eclips…

Spark 资源调度及任务调度

1. 资源分配通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master.Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源. 1．1 Dirver调度(分配Driver执行容器,1个) Master中调度程序执行时会为Driver分配一满足其执行要求的Worker, 并通知Worker启动将Driver.Worker接到执行Driver指令后创建Dr…

【Spark Core】任务运行机制和Task源代码浅析1

引言上一小节<TaskScheduler源代码与任务提交原理浅析2>介绍了Driver側将Stage进行划分.依据Executor闲置情况分发任务,终于通过DriverActor向executorActor发送任务消息. 我们要了解Executor的运行机制首先要了解Executor在Driver側的注冊过程.这篇文章先了解一下Application和Executor的注冊过程. 1. Task类及其相关 1.1 Task类 Spark将由Executor运行的Task分为ShuffleMa…

spark基本概念

Client:客户端进程,负责提交作业到Master. Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码: Cluster Manager:指的是在集群上获取资源的外部服务,目前有:Standalone:Spark原生的资源管理,由Master负责资源的分配:Hadoop Yarn:由YARN中的ResourceMan…

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型.一个是TaskScheduler与事实上现,一个是DAGScheduler. TaskScheduler:主要负责各stage中传入的task的运行与调度. DAGScheduler:主要负责对JOB中的各种依赖进行解析,依据RDD的依赖生成stage并通知TaskScheduler运行. 实例生成 TaskScheduler实例生成: scheduler实例生成,我眼下主要是针对onyarn的spark进行的相关分析, 在app…