Application

　　application和Hadoop MapReduce类似，都是指用户编写的spark应用程序，其中包含了一个driver功能的代码和分布在集群中多个节点运行的executor代码。

Driver

使用driver这一概念的分布式框架很多，比如hive。spark中的driver即运行上述application的main()函数并创建sparkcontext，创建sparkcontext的目的是为了准备spark应用程序的运行环境。在spark中，由sparkcontext负责与clustermanager通信，进行资源的申请，任务的分配和监控等。当executor部分执行完毕以后，driver负责将sparkcontext关闭。通常用sparkcontext代表driver。

Executor

某个application运行worker节点上的一个进程，该进程负责执行task，并且负责将数据存储在内存或者磁盘上。每个application都有各自独立的一批executor。在spark on yarn模式下，其进程名字为CoarseGrainedExecutor Backend，类似于Hadoop MapReduce中的YarnChild，一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象，它负责将task包装成taskRunner，并从线程池中抽取一个空闲线程运行task。这样，每个CoarseGrainedExecutor Backend能并行运行task的数量就取决于分配给它的CPU个数了。

ClusterManager

指的是在集群上获取资源的外部服务，目前有三种类型。

Standalone

Spark原生的资源管理，由master负责资源的分配，可以在亚马逊的EC2上运行。

Apache Mesos

与Hadoop MapReduce兼容性良好的一种资源调度框架。

Hadoop Yarn

主要指的是yarn中的resourcemanager。

Worker

集群中任何可以运行application代码的节点，类似于yarn中的nodemanager节点。在standalone模式中指的就是通过slave文件配置的worker节点，在spark on yarn中指的是nodemanager节点。

Task

被送到某个executor上的工作单元，和Hadoop MapReduce中的maptask和reducetask概念一样，是运行Application的基本单位，多个task组成一个stage，而task的调度和管理由TaskScheduler负责。

Job

包含多个task组成的并行计算，往往由spark Action触发产生。一个Application中可能会产生多个job

Stage

每个job会拆分成多组task，作为一个TaskSet，其名称为Stage，Stage的划分和调度由DAGSchedule负责。Stage有非最终的Stage（即shuffle Map Stage）和最终的Stage即（Result Stage）两种，Stage的边界就是发生shuffle的地方。

RDD

Spark的基本计算单元，通过一系列的算子进行操作（主要有transformation和Action两种操作）。同时，RDD是Spark最核心的东西，它表示已被分区、被序列化、不可变的、有容错机制的，并且能够被并行操作的数据集合。其存储基本可以是磁盘也可以是内存，通过spark.storageLevel属性配置。

共享变量

在spark Application运行时，可能需要共享一些变量，提供给Task或Driver使用。Spark提供了两种共享变量，一种是可以缓存到各个节点的广播变量，另外一种是只支持加法操作，可以实现求和的累加变量。

宽依赖

或称为shuffleDependency，与Hadoop MapReduce中的shuffle的数据依赖相同，宽依赖需要计算好所有父RDD对应的数据分区，然后在节点之间进行shuffle。

窄依赖

或称为narrowDependency，指某个具体的RDD，其分区partition a最多被子RDD中的的一个分区partition b依赖，此种情况只有map任务，是不需要shuffle过程的。窄依赖分为1:1和N：1两种。

DAGScheduler

根据job构建基于stage的DAG，并提交stage给TaksScheduler，其划分stage的依据是RDD之间的依赖关系。

TaskScheduler

将task任务提交给worker运行，每个executor运行什么task就是再次分配的。

常见术语表

spark的一些基本概念和模型的更多相关文章

大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先 ...
【转】浅谈UML的概念和模型之UML九种图
原文地址:浅谈UML的概念和模型之UML九种图目录: UML的视图 UML的九种图 UML中类间的关系上文我们介绍了,UML的视图,在每一种视图中都包含一个或多种图.本文我们重点讲解UML每种图的 ...
【转】从PowerDesigner概念设计模型（CDM）中的3种实体关系说起
PowerDesigner概念模型的relationship .inheritance. association 从PowerDesigner概念设计模型(CDM)中的3种实体关系说起
Spark快速获得CrossValidator的最佳模型参数
Spark提供了便利的Pipeline模型,可以轻松的创建自己的学习模型. 但是大部分模型都是需要提供参数的,如果不提供就是默认参数,那么怎么选择参数就是一个比较常见的问题.Spark提供在org.a ...
Spark集群基础概念与 spark架构原理
一.Spark集群基础概念将DAG划分为多个stage阶段,遵循以下原则: 1.将尽可能多的窄依赖关系的RDD划为同一个stage阶段. 2.当遇到shuffle操作,就意味着上一个stage阶段结 ...
Spark 概念学习系列之Spark基本概念和模型（十八）
打好基础,别小瞧它! spark的运行模式多种多样,在单机上既可以本地模式运行,也可以伪分布模式运行.而当以分布式的方式在集群中运行时.底层的资源调度可以使用Mesos或者Yarn,也可使用spark ...
Spark流式编程介绍 - 编程模型
来源Spark官方文档 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programm ...
浅谈UML的概念和模型之UML九种图
1.用例图(use case diagrams) [概念]描述用户需求,从用户的角度描述系统的功能 [描述方式]椭圆表示某个用例:人形符号表示角色 [目的]帮组开发团队以一种可视化的方式理解系统的功能 ...
[UML]转：浅谈UML的概念和模型之UML九种图
转自:http://blog.csdn.net/jiuqiyuliang/article/details/8552956 目录: UML的视图 UML的九种图 UML中类间的关系上文我们介绍了,UM ...

随机推荐

如何回答——请简述MySQL索引类型
想必大家在被问到这个问题的时候,在网上总是能搜到不同的回答,却又各不相同.其实这些答案大部分都是正确的,只不过在阐述MySQL索引类型的时候从不同方面入手而已.这里归纳如下,具体的机制可以参考其他博文 ...
易百教程人工智能python修正-人工智能监督学习(分类)
分类技术或模型试图从观测值中得出一些结论. 在分类问题中,我们有分类输出,如“黑色”或“白色”或“教学”和“非教学”. 在构建分类模型时,需要有包含数据点和相应标签的训练数据集. 例如,如果想检查图像 ...
Linux下Java变量
一.JAVA_HOME.PATH.CLASSPATH详解 1.1.JAVA_HOME 指向jdk安装目录,该目录下有bin.lib目录.Eclipse/NetBeans/Tomcat等软件就是通过搜索 ...
python3基础之“小练习（2）”
(十三)创建一个你最喜欢歌手的列表. # singer=list() # singer=['a','b','c'] # print(singer) (十四)创建一个由元组构成的列表,每个元组包含居住过 ...
Linux (x86) Exploit 开发系列教程之三(Off-By-One 漏洞 (基于栈))
off by one(栈)? 将源字符串复制到目标缓冲区可能会导致off by one 1.源字符串长度等于目标缓冲区长度. 当源字符串长度等于目标缓冲区长度时,单个NULL字节将被复制到目标缓冲区上 ...
【JUC】5.线程池—Executor
创建线程池可以分为三种方式: 1. 通过ThreadPoolExecutor的构造方法,创建ThreadPoolExecutor的对象,即一个线程池对象: 此构造方法,一共7个参数,5个必须参数,2个 ...
TableCache设置过小造成MyISAM频繁损坏与把table_cache适当调小mysql能更快地工作
来源: 前些天说了一下如何修复损坏的MyISAM表,可惜只会修复并不能脱离被动的境地,只有查明了故障原因才会一劳永逸. 如果数据库服务非正常关闭(比如说进程被杀,服务器断电等等),并且此时恰好正在更新 ...
2013.6.24 - OpenNE第四天
今天晚上跟师兄讨论,这那几篇论文,对于<领域多词表达翻译对的自动抽取及其应用>那篇,我的感觉是跟实体识别不太吻合.他的大概意思就是先讲所有有可能的多词表达都找出来,然后在用C-value ...
Mongodb3.6 Replica Set 配置
单机下执行: /usr/local/mongodb/bin/mongod --dbpath /usr/local/mongodb/r1 --port --replSet myset /usr/loca ...
com.mysql.jdbc.Driver not loaded. Are you sure you've included the correct jdbc driver in :jdbc_driver_library?
把对应的jdbc jar包放到 /usr/share/logstash/logstash-core/lib/jars/路径下即可.可以在配置文件不用配置驱动库.

spark的一些基本概念和模型