[Spark]Spark章1　Spark架构浅析

Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。集群中运行Master进程的节点称为Master，同样，集群中含有Worker进程的节点为Slave。Master负责控制整个集群的运行；Worker节点相当于分布式系统中的计算节点，它接收Master节点指令并返回计算进程到Master；Executor负责任务的执行；Client是用户提交应用的客户端；Driver负责协调提交后的分布式应用。

在Spark应用的执行过程中，Driver和Worker是相互对应的。Driver是应用逻辑执行的起点，负责Task任务的分发和调度；Worker负责管理计算节点并创建Executor来并行处理Task任务。Task执行过程中所需的文件和包由Driver序列化后传输给对应的Worker节点，Executor对相应分区的任务进行处理。

下面介绍Spark架构中的组件。

1）Client：提交应用的客户端。

2）Driver：执行Application中的main函数并创建SparkContext。

3） ClusterManager：在YARN模式中为资源管理器。在Standalone模式中为Master（主节点），控制整个集群。

4） Worker：从节点，负责控制计算节点。启动Executor或Driver，在YARN模式中为NodeManager。

5） Executor：在计算节点上执行任务的组件。

6） SparkContext：应用的上下文，控制应用的生命周期。

7） RDD：弹性分布式数据集，Spark的基本计算单元，一组RDD可形成有向无环图。

8） DAG Scheduler：根据应用构建基于Stage的DAG，并将Stage提交给Task Scheduler。

9） Task Scheduler：将Task分发给Executor执行。

Spark架构揭示了Spark的具体流程如下：

1）用户在Client提交了应用。

2） Master找到Worker，并启动Driver。

3） Driver向资源管理器（YARN模式）或者Master（Standalone模式）申请资源，并将应用转化为RDD Graph。

4） DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给Task Scheduler。

5） Task Scheduler提交任务给Executor执行。

[Spark]Spark章1　Spark架构浅析的更多相关文章

2.Spark Streaming运行机制和架构
1 解密Spark Streaming运行机制上节课我们谈到了技术界的寻龙点穴.这就像过去的风水一样,每个领域都有自己的龙脉,Spark就是龙脉之所在,它的龙穴或者关键点就是SparkStreami ...
第6章运行Spark SQL CLI
第6章运行Spark SQL CLI Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务.需要注意的是,Spark SQL CLI不能与Thrift JDBC ...
Spark（七）Spark内存调优
一.概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色.理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优.本文 ...
Spark修炼之道——Spark学习路线、课程大纲
课程内容 Spark修炼之道(基础篇)--Linux基础(15讲).Akka分布式编程(8讲) Spark修炼之道(进阶篇)--Spark入门到精通(30讲) Spark修炼之道(实战篇)--Spar ...
spark运行时出现Neither spark.yarn.jars nor spark.yarn.archive is set错误的解决办法（图文详解）
不多说,直接上干货! 福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 ...
Spark on Yarn ｜ Spark，从入门到精通
?/ 为什么需要 Yarn? /? Yarn?的全称是?Yet Anther Resource Negotiator(另一种资源协商者).它作为 Hadoop?的一个组件,官方对它的定义是一个工作调度 ...
spark系列-2、Spark 核心数据结构：弹性分布式数据集 RDD
一.RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象, ...
spark系列-8、Spark Streaming
参考链接:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一.Spark Streaming 介绍 Spark ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...

随机推荐

JMeter学习（二十四）HTTP属性管理器HTTP Cookie Manager、HTTP Request Defaults（转载）
转载自 http://www.cnblogs.com/yangxia-test Test Plan的配置元件中有一些和HTTP属性相关的元件:HTTP Cache Manager.HTTP Autho ...
Java拦截器+注解搭配使用
拦截器加注解可以实现登录权限验证等操作,我的应用场景也是为了验证这个,下面是简单的实现步骤一.什么是拦截器? 拦截器是对action的一种拦截,可以在请求前后进行一些处理可拦截controll ...
nginx配置解决ajax请求跨域问题
文章来源:http://to-u.xyz/2016/06/30/nginx-cors/ 背景描述最近在研究RESTful API接口设计,使用的是Nginx,要实现本地http://127.0.0. ...
解决谷歌浏览器频繁出现adobe flash player因过期而遭到阻止的问题(转自知乎)
作者:在战争中链接:https://www.zhihu.com/question/32223811/answer/128088278来源:知乎著作权归作者所有,转载请联系作者获得授权. 很多新用户在安 ...
mock.js 劫持 ajax，模拟数据
http://mockjs.com/ Mock.js 是一款前端开发中拦截Ajax请求再生成随机数据响应的工具.可以用来模拟服务器响应. 优点是非常简单方便, 无侵入性, 基本覆盖常用的接口数据类型. ...
Ionic后退刷新
版本:Angular 1.5.3.Ionic1.3.2 一禁用缓存,全页面刷新. 每次前进/ 后退时,控制器都会执行. 1 AngularJS ui-router路由禁用缓存 var app = a ...
RocketMq --consumer自动实现负载均衡
这边使用一个producer和两个consumer是实现负载均衡. 看一下代码示例 package com.alibaba.rocketmq.example.message.model; import ...
vue 给v-html中的元素设置样式
解决方案:写样式的时候添加>>>
【Android内存泄漏检测】LeakCanary使用总结
一.什么是LeakCanary? LeakCanary就是用来检测Android端内存泄漏的一个工具.能够检测Activity的泄漏什么是内存泄漏? Java 对象有时也会”长死不死“,GC 拿它没 ...
20 【python】入门指南：常用数据结构
Python内置了三种高级数据结构:list,tuple,dict list:数组,相同类型的元素组成的数组 tuple:元组,相同类型的元素组成的数组,但是这里有限定条件(长度是固定的,并且值也是固 ...

[Spark]Spark章1 Spark架构浅析

[Spark]Spark章1 Spark架构浅析的更多相关文章

随机推荐

热门专题

[Spark]Spark章1　Spark架构浅析

[Spark]Spark章1　Spark架构浅析的更多相关文章