Spark on Yarn

1. Spark on Yarn模式优点

与其他计算框架共享集群资源（eg.Spark框架与MapReduce框架同时运行，如果不用Yarn进行资源分配，MapReduce分到的内存资源会很少，效率低下）；资源按需分配，进而提高集群资源利用率等。

相较于Spark自带的Standalone模式，Yarn的资源分配更加细致

Application部署简化，例如Spark，Storm等多种框架的应用由客户端提交后，由Yarn负责资源的管理和调度，利用Container作为资源隔离的单位，以它为单位去使用内存,cpu等。

Yarn通过队列的方式，管理同时运行在Yarn集群中的多个服务，可根据不同类型的应用程序负载情况，调整对应的资源使用量，实现资源弹性管理。

2. Yarn框架基本原理

Yarn框架图

2.1 名词解释(简述)

Client作为提交分布式程序的客户端,上传资源文件和JAR包到HDFS提供集群使用一般是client实现的。客户端除了可以直接从RM得到App Master的消息，得到作业的运行情况外，还可以直接与App
Master沟通。

ResourceManager负责将集群的资源分配给各个应用使用。

Container作为资源分配和调度的基本单位，其中封装了的资源如内存，CPU，磁盘，网络带宽等。每个任务会被分配一个Container，并在该Container中执行且只能使用其封装的资源。

NodeManager作为计算节点，负责启动Container，同时通过心跳不断的和RM沟通，描述该Worker节点的资源（ CPU,内存，硬盘和网络带宽等）状况。

AppMaster 对应客户端提交的一个应用，客户端每提交一个应用,RM会在Worker节点上给它分配一个全局唯一的App master，App master可以在任何一台Worker节点上启动，负责管理作业的整个生命周期，包括通知NM创建Container，管理Container等。

Yarn可以在History Server中查看运行了那些作业，在Hadoop未来版本中还可以通过Histort Server中了解App Master的工作（调度）细节（eg.使用哪台机器上的CPU,内存，处理了什么数据等）。

2.2 工作流程（简述）

1. RM收到客户端的请求后，会在全局查看资源，如果哪台Worker适合，其上运行的NM就为该作业生成container实例，生成的第一个Container实例，里面运行的就是App Master，App
Master运行成功的时候要向RM进行注册。

2. App Master向RM申请资源（eg.10个Container），得到消息反馈后，控制NM启动Container并运行任务，Container启动后直接对App Master负责（作业的调度中心是App
Master，极大的减轻的RM的负担）。

Tip:如果没有足够的container可以被申请,则会进行等待其他作业完成任务，空出Container后进行分配。

3.App Master监控容器上任务的执行情况，反馈在作业的执行状态信息和完成状态。

3. Spark on Yarn框架

Spark on Yarn框架图

Yarn提到的App Master可以理解为Spark中Standalone模式中的driver。

Container中运行着Executor,在Executor中以多线程并行的方式运行Task。

工作流程大体与Yarn相同。

4. 部署和使用

4.1配置

使用该模式的时候，需修改$SPARK_HOME/conf/spark-env文件，在文件中加入HADOOP_CONF_DIR 或者 YARN_CONF_DIR路径指向含有客户端配置文件的目录。这些配置会被写入分布式文件系统,YARNResourceManager会链接它们。

//HADOOP目录

export HADOOP_HOME=/usr/local/hadoop

//HADOOP下配置文件目录

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

4.2用yarn 运行Spark应用

Sparkon Yarn 模式又分为Yarn-Cluster模式和Yarn-Client模式。

Spark-Cluster模式中,driver程序会在application master进程中运行，客户端程序可以在应用初始化后脱离。Spark-Client模式中，driver运行在client进程中，client一般不是集群中的机器。applicationmaster仅用于向YARN请求资源。调试时一般使用yarn-client模式，便于任务进行过程和结果（log）的查看。

4.2.1 yarn-cluster

在yarn-cluster模式下启动Spark Application

列出一些常用的参数：

num-executors是executor的数量

driver-memory 是为driver分配的内存

executor-memory 是每个executor使用的内存

executor-cores 是每个executor分配的CPU

示例：

结果：

可以去ResourceManager的web ui 默认端口8088中查看结果，也可以直接去Worker节点的log下查看。

4.2.2 yarn-client

使用方式除了--master 参数改为yarn-client外，其他基本与yarn-cluster相同

执行过程和结果都会在控制台打印出来，这是因为driver运行在客户端中：

4.3 调试

提交任务后，可以在Yarn的ResourceManager对应的Web UI（默认端口为8088）中查看该Application的状态和对应的日志。

Executors和app master都运行在container中。应用完成运行后，YARN有两种处理container日志的模式：

1.如果开启了日志聚合(通过yarn.log-aggregation-enable配置),container的日志会复制到HDFS中并且删除机器上的本地日志。这样可以通过”yarn logs”命令在集群中的任意地方进行查看。

yarn logs -applicationId <app ID>

运行上述命令会打印出指定应用所有container的日志内容。

2.如果日志聚合是关闭的，日志会保存在每一台机器的目录YARN_APP_LOGS_DIR下，通常配置为$HADOOP_HOME/logs/userlogs。查看某个container的日志需要在对应主机的那些目录下进行。子目录会根据Application ID以及Container
ID来确定。

5. Sparn on Yarn 属性列表

属性名	默认值	说明
spark.yarn.applicationMaster.waitTries	10	ApplicationMaster容许SparkContext初始化失败的最大次数
spark.yarn.submit.file.replication	3	Spark和APP的JAR文件以及其他分布式存储的文件、压缩包上传到HDFS中的副本数量
spark.yarn.preserve.staging.files	false	设置是否在本次Job运行完成后删除使用到的文件(Spark和App的jar文件等)
spark.yarn.scheduler.heartbeat.interval-ms	5000	Spark application master向YARN心跳汇报的间隔
spark.yarn.max.executor.failures	2*executor数量，最小为3	在Application失败前，executor的最大失败次数
spark.yarn.historyServer. address	none	Spark历史任务的地址（例如：host.com:18080）,不要包含协议头(http://)。当Spark应用执行执行完成时，YARN ResourceManager 可以通过这个地址将ResourceManager UI和 Spark 历史任务 UI链接。
spark.yarn.dist.archives	none	将要解压到每个executor工作目录下的压缩包用逗号分隔。
spark.yarn.dist.files	none	将要放置在每个executor工作目录下的文件用逗号分隔
spark.yarn.executor.memoryOverhead	384	每个executor可以分配的非堆存储(off-heap)内存，这些内存用于如VM，字符串常量池以及其他本地额外开销等。
spark.yarn.driver.memoryOverhead	384	每个driver可以分配的非堆存储(off-heap)内存，这些内存用于如VM，字符串常量池以及其他本地额外开销等。
spark.yarn.jar	none	修改读取spark jar的地址， Spark on Yarn默认使用安装在本地的Spark jar文件，但是该文件也可以放在HDFS上任意可以访问到的位置。 YARN可以将他缓存在节点上，这样就不必在应用每次运行时再分发。用法：可以通过”hdfs:///some/path”来指定HDFS上的jar文件。
spark.yarn.access.namenodes	none	你的Spark Application将要去连接的一个安全的 HDFS nameNodes列表。例如： `spark.yarn.access.namenodes= hdfs://nn1.com:8032,hdfs://nn2.com:8032`。 Spark Application首先要能访问访问该列表中指定的namenode，Spark获取到每个namenode的安全令牌，这样Spark Application就能访问那些远程的HDFS集群。
spark.yarn.appMasterEnv. [EnvironmentVariableName]	none	将环境变量通过EnvironmentVariableName添加到YARN上启动的Application Master进程。用户可以指定多个这样的配置来设置多个环境变量。在yarn-cluster模式中控制Spark driver的环境变量，在yarn-client模式中只能控制executor启动的环境变量。

6. 注意事项

Hadoop2.2之前，YARN不支持为container资源分配核心数。

Sparkexecutor使用的本地目录由YARN的配置确定（Hadoop YARN配置yarn.nodemanager.local-dirs）。即使用户在spark配置文件中指定了spark.local.dir也会被忽略。

在yarn-cluster模式下，如果你使用本地文件，参数选项--jars能使代码中的SparkContext.addJar的功能生效。如果使用的是HDFS,HTPP,HTTPS或FTP文件则不需要--jars参数。

Spark on Yarn的更多相关文章

Spark on YARN的部署
Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前提是首先部署好hadoop HDFS并且运行在yarn上,然后就可以开始部署spark on ...
配置Spark on YARN集群内存
参考原文:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool 运行文件有几个G大,默 ...
Spark on Yarn 学习(一)
最近看到明风的关于数据挖掘平台下实用Spark和Yarn来做推荐的PPT,感觉很赞,现在基于大数据和快速计算方面技术的发展很快,随着Apache基金会上发布的一个个项目,感觉真的新技术将会不断出现在大 ...
Spark on Yarn：任务提交参数配置
当在YARN上运行Spark作业,每个Spark executor作为一个YARN容器运行.Spark可以使得多个Tasks在同一个容器里面运行. 以下参数配置为例子: spark-submit -- ...
运行 Spark on YARN
运行 Spark on YARN Spark 0.6.0 以上的版本添加了在yarn上执行spark application的功能支持,并在之后的版本中持续的改进.关于本文的内容是翻译官网的内容,大 ...
Spark On YARN使用时上传jar包过多导致磁盘空间不够。。。
今天测试过程中发现YARN Node变成Unhealthy了,后来定位到硬盘空间不够..... 通过查找大于100M的文件时发现有N多个spark-assembly-1.4.0-SNAPSHOT-ha ...
Spark on YARN两种运行模式介绍
本文出自:Spark on YARN两种运行模式介绍http://www.aboutyun.com/thread-12294-1-1.html(出处: about云开发) 问题导读 1.Spark ...
Spark源码系列（七）Spark on yarn具体实现
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思.这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一 ...
Apache Spark源码走读之8 -- Spark on Yarn
欢迎转载,转载请注明出处,徽沪一郎. 概要 Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准.其主要职责将是分布式计算集群的 ...

随机推荐

ASP.NET中 WebForm 窗体控件使用及总结【转】
原文链接:http://www.cnblogs.com/ylbtech/archive/2013/03/06/2944675.html ASP.NET中 WebForm 窗体控件使用及总结. 1.A, ...
golang json string remove field
golang中如何移除多余的field? 同样是json结构,不能像js 的json一样 delete key 直接移除,网上找了很多相似的,还没找到解决办法,先mark一下感谢大神提供解决思路,设 ...
Selenium2学习-013-WebUI自动化实战实例-011-WebElement.getText()值为空问题探索及解决
今天有个朋友在群里问 WebElement.getText() 值为空,当你发现取到的值为空的时候,会不会郁闷呢?明明看到的值不为空,脚本看着也没有问题啊,为何取到的值为空呢!!!万千纠结啊,若是长时 ...
java发展道路
1.
ubuntu下安装boost环境
改自 http://blog.chinaunix.net/uid-12226757-id-3427282.html =============第一种: 也是最简单的:进入linux系统后,输入 # ...
JavaScript：实现瀑布流
一.前言: 瀑布流现在是一个非常常用的布局方式了,尤其在购物平台上,例如蘑菇街,淘宝等等. 二.流程: 1.在html文件中写出布局的元素内容: 2.在css文件中整体对每一个必要的元素进行样式和浮动 ...
Inside Kolla - 04 Kolla 目录结构
Kolla 目录结构把 Kolla 的源代码下载下来后,先从总体上分析 Kolla 的目录结构,查看顶层目录结构,使用 tree -L 1 输出 . ├── ansible ├── compose ...
PHP的压力测试工具ab.exe 和mpm介绍提高并发数
该工具是apache自带的,可以用它来测试网站的并发量有多大和某个页面的访问时间. 基本用法: 1. 进入CMD,转到apache的bin目录下. 2. 执行命令ab.exe -n 访问的问次数 ...
三层交换配置VLAN+DHCP+ACL
使用思科模拟软件Cisco Packet Tracer Student,软件功能有限,只能架设简单的网络架构,适合初学者使用.
Vue.2.0.5-深入响应式原理
大部分的基础内容我们已经讲到了,现在讲点底层内容.Vue 最显著的一个功能是响应系统 -- 模型只是普通对象,修改它则更新视图.这会让状态管理变得非常简单且直观,不过理解它的原理以避免一些常见的陷阱也 ...

Spark on Yarn

Spark on Yarn

1. Spark on Yarn模式优点

2. Yarn框架基本原理

2.1 名词解释(简述)

2.2 工作流程（简述）

3. Spark on Yarn框架

4. 部署和使用

4.1配置

4.2用yarn 运行Spark应用

4.2.1 yarn-cluster

4.2.2 yarn-client

4.3 调试

5. Sparn on Yarn 属性列表

6. 注意事项

Spark on Yarn的更多相关文章

随机推荐

热门专题