Spark内核概述

提交Spark程序的机器一般一定和Spark集群在同样的网络环境中（Driver频繁和Executors通信），且其配置和普通的Worker一致

1. Driver：具有main方法的，初始化 SparkContext 的程序。Driver运行在提交Spark任务的机器上。

Driver 部分的代码： SparkConf + SparkContext

SparkContext: 创建DAGScheduler, TaskScheduler, SchedulerBackend, 在实例化的过程中Register当前程序给Master。 Master接
受注册，如果没有问题，Master会为当前程序分配AppId并分配计算资源

Cluster Manager：获取集群资源的外部服务。Spark应用程序的运行不依赖于Cluster Manager。

Master: 接受用户提交的程序并发送指令给Worker，让其为当前程序分配计算资源，每个Worker所在节点默认为当前程序分配一个
Executor，在Executor中通过线程池并发执行。

可以通过以下三种途径得到要为当前程序分配多少计算资源：

(1). spark-env.sh 和 spark-default.sh 中的配置信息

(2) submit 提供的参数

(3) 程序中，conf里定义的

Worker：不运行程序的代码，它管理当前节点的内存、CPU等计算资源，并接收Master的指令来分配具体的计算资源Executor（在新的进程中分配）

Worker只有在启动时才会向Master发送状态报告。

以下情况会触发Job： 1. Action 2. checkpoint 3. 排序

Spark 提交任务概述：

注意： Master 给 Worker 发送指令，要求其为Application 分配资源时，并不关心具体的资源是否已经分配。也就是说Master发指令后就记录了资源的分配，

以后其它客户端提交程序的时候就不会再分配该资源了。其弊端：是其它要提交的程序可能分配不到本来可以分配的资源。

优势：在 Spark 分布式系统弱耦合的基础上最快的执行程序（否则如果Master要等到Worker最终分配成功后才通知 Driver的话，就会造成Driver阻塞，不

能够最大化并行计算资源的使用率）。默认情况下，Spark中的任务是排队的，也就是说同时只有一个任务在执行，所以其弊端并不明显。

Spark内核概述的更多相关文章

【大数据】Spark内核解析
1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...
【Spark 内核】 Spark 内核解析-上
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更 ...
Spark内核解析
Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spark内核 ...
（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
大数据计算平台Spark内核解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着 Spark在大数据计算领域的暂露头角,越来越多 ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章运行 S ...
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式 ...

随机推荐

mysql 如何创建索引
mysql 如何创建索引一.总结一句话总结:MySQL中可以使用alter table这个SQL语句来为表中的字段添加索引. 使用alter table语句来为表中的字段添加索引的基本语法是:AL ...
Winform中的dataGridView添加自动编号
1.Winform中的dataGridView添加自动编号:http://blog.csdn.net/ohyoyo2014/article/details/38346887 2.如何为datagrid ...
Python基础-处理时间模块
import datetime, time # print(time.time()) # 获取当前时间戳,从unix元年开始到现在过了多少秒# print(time.sleep(19)) # 休息几s ...
python中的yield关键字
yield关键字一直困扰了我很久,一直也没有弄明白,现在将暂时理解的yield记录如下,供参考: 关键词:可迭代对象,生成器,迭代器一.可迭代对象: 可迭代对象:可迭代对象是一个泛称,只要可以用fo ...
freeMarker（十一）——模板语言之指令
学习笔记,选自freeMarker中文文档,译自 Email: ddekany at users.sourceforge.net 1.assign 概要 <#assign name1=value ...
NodeJS中 Path 模块
var path = require('path'); // 当发现有多个连续的斜杠时,会替换成一个: 当路径末尾包含斜杠时,会保留: // 在 Windows 系统会使用反斜杠. var p = p ...
URAL1517Freedom of Choice（后缀数组）
Background Before Albanian people could bear with the freedom of speech (this story is fully describ ...
POJ1904 King's Quest
King's Quest Language:Default King's Quest Time Limit: 15000MS Memory Limit: 65536K Total Submission ...
Oracle 12C 新特性之在线重命名、迁移活跃的数据文件
Oracle 数据库 12c 版本中对数据文件的迁移或重命名不再需要太多繁琐的步骤,可以使用 ALTER DATABASE MOVE DATAFILE 这样的 SQL 语句对数据文件进行在线重命名和移 ...
HDOJ2141（map在二分搜索中的应用）
#include<iostream> #include<cstdio> #include<map> #include<algorithm> using ...

Spark内核概述

Spark内核概述的更多相关文章

随机推荐

热门专题