<Spark><Running on a Cluster>
Introduction
- 之前学习的时候都是通过使用spark-shell或者是在local模式运行spark
- 这边我们首先介绍Spark分布式应用的架构,然后讨论在分布式clusters中运行Spark的options(Spark可以运行在多种cluster managers之上:Hadoop YARN,Apache Mesos,以及Spark自带的内置Standalone cluster manager)。之后我们还会讨论scheduling,deploying和configuring一个Spark应用的细节。
Spark Runtime Architecture
- a driver + its executor = a Spark application
- 一个Spark应用通过使用一个外部服务--cluster manager来在一系列机器上运行
The Driver
- driver是你程序运行main()函数的进程,是用户代码创建SparkContext,创建RDDs,执行transformations和actions的进程
- driver有两个职责:
- 将一个用户程序转化成tasks:Spark program隐式地 创建一个Operations的逻辑有向无环图(DAG),当driver运行的时候,它会将该DAG转换成一个实际执行计划。Spark会执行一些优化,比如"pipelining“ map transformations together to merge them,并且将执行图转成一系列stages。每个stage由多个tasks组成。
- Scheduling tasks on executors:给定一个实际执行计划,Spark driver必须将每个单独的tasks调度到executors上。当executors注册到driver之后,driver会对executors有complete view。Driver会查看当前的executors并且试图把每个task调度到合适的位置。
Executors
- Spark executors就是负责运行给定job中tasks的工作进程。Executors有两个角色:
- 运行tasks,并将结果返回到driver;
- 为用户程序缓存的RDDs提供in-memory storage:通过每个executor内部生存的Block Manager。
Cluster Manager
- Spark依赖一个cluster manager来launch executors,并且在某些情况下,来launch driver。
Launching a Program
- 不管你使用何种cluster manager,你都可以使用spark-submit脚本来提交你的程序。
Summary
- 用户使用spark-submit提交一个application;
- spark-submit启动driver program并invokes用户指定的main()函数;
- driver program与cluster manager联系来获取启动executors的资源;
- cluster manager代表driver program启动executors;
- driver进程run through user application,基于程序中的RDD actions和transformations,driver将work以tasks的形式发送给executors;
- tasks在executor进程中被运行,并计算和保存结果;
- 如果driver的主函数退出或调用了SparkContext.stop()方法,那么executors会被终止,资源将会从cluster manager中被释放。
Deploying Applications with Spark-submit
<Spark><Running on a Cluster>的更多相关文章
- 简单物联网:外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
- 利用ssh反向代理以及autossh实现从外网连接内网服务器
前言 最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
- 外网访问内网Docker容器
外网访问内网Docker容器 本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
- 外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
- 外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
- 怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
- 怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库 本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
- 怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库 本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
- 怎样从外网访问内网DB2数据库
外网访问内网DB2数据库 本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库 默认安装的DB2 ...
- 怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库 本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...
随机推荐
- canvas学习之树叶动画
项目地址:http://pan.baidu.com/s/1geJgqen 今天用canvas做了一个树叶发芽到凋落的动画,当然还有很多不完善的地方,不过也让我体会到了,做动画技术占2分,算法占8分.这 ...
- Apache Hadoop Operations at Scale
book: Hadoop Operations,A Guide for Developers and Administrators Apache Hadoop Operations at Scale ...
- Spring Batch @EnableBatchIntegration 注解
设置一个远程分块任务需要定义一系列的 beans: 一个连接工程来从消息中间件中获得连接,消息中间件包括有(JMS,AMQP 和其他) 一个 MessagingTemplate 来从主向从发送消息, ...
- Binomial Coefficient(二项式系数)
In mathematics, any of the positive integers that occurs as a coefficient in the binomial theorem is ...
- Confluence 6 编辑一个空间的配色方案
空间默认继承全局的配色方案.但是,如果你是空间管理员的话,你可以对默认继承的全局方案进行调整,使用自定义的配色方案. 为一个空间修改配色方案: 进入空间后,然后从边栏的底部选择 空间工具(Space ...
- 十分钟搞定pandas内容
目录 十分钟搞定pandas 一.创建对象 二.查看数据 三.选择器 十二.导入和保存数据 参考:http://pandas.pydata.org/pandas-docs/stable/whatsne ...
- pyhon基础之约束和异常处理:
约束和异常处理:内容梗概: 1. 类的约束 2. 异常处理 3. 自定义异常 4. 日志 1. 类的约束定义:约束是对类的约束常用方法:1. 提取父类.然后在父类中定义好方法.在这个方法中什么都不用干 ...
- React文档(一)安装
React是一个灵活的可以用于各种不同项目的框架,你可以用它来写新应用,你也可以逐步将它引进已有的代码库而不用重写整个项目. 试用React 如果你想玩一玩React,那么就去CodePen上试一试. ...
- URL与URI的含义及区别
1.1 什么是URI? 简单点说:URI就是通用资源标志符,不理解是吧,我第一次听说也是不理解. 进一步说:网络上的一些资源(文档.图片.音频.视频.程序等)都是有一些通用资源标识(Universal ...
- PostgreSQL&PostGIS完全安装
检查PostGIS.PostgreSQL.GEOS.GDAL.PROJ等各软件的版本依赖关系 http://trac.osgeo.org/postgis/wiki/UsersWikiPostgreSQ ...