Spark集群之Spark history server额外配置

Note：

driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录，如果不使用stop()方法，即使在指定目录中产生该应用程序的目录，history server也将不会加载该应用程序的运行信息。

在运行Spark应用程序的时候，driver会提供一个webUI给出应用程序的运行信息，但是该webUI随着应用程序的完成而关闭端口，也就是说，Spark应用程序运行完后，将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的，通过配置，Spark应用程序在运行完应用程序之后，将应用程序的运行信息写入指定目录，而Spark history server可以将这些运行信息装载并以web的方式供用户浏览。要使用history server，对于提交应用程序的客户端需要配置以下参数（在conf/spark-defaults.conf中配置）：

spark.eventLog.enabled：是否记录Spark事件，用于应用程序在完成后重构webUI。为 true

spark.eventLog.dir ：该属性为记录spark事件的根目录。在此根目录中，Spark为每个应用程序创建分目录，并将应用程序的事件记录到在此目录中。用户可以将此属性设置为HDFS目录，以便history server读取历史记录文件。

spark.yarn.historyServer.address：Spark history server的地址（不要加http://）。这个地址会在Spark应用程序完成后提交给YARN RM，然后RM将信息从RM UI写到history server UI上。

相关配置如下：

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://hadoop1:9000/user/husor/sparklogs

spark.yarn.historyServer.address    hadoop1:

注意：可通过hadoop1:8080端口查看以前所以程序相关信息。

而对于history server的服务端，可以配置以下环境变量：

SPARK_DAEMON_MEMORY：分配给history server的内存大小，默认512m。

SPARK_DAEMON_JAVA_OPTS：history server的JVM选择，默认为空。

SPARK_PUBLIC_DNS：history server的公网地址，如果不设置，可以用内网地址来访问。默认为空。

SPARK_HISTORY_OPTS：history server的属性设置，属性如下面所示。默认为空。

属性名称	默认	含义
spark.history.updateInterval	10	以秒为单位，多长时间history server显示的信息进行更新。每次更新都会检查持久层事件日志的任何变化。
spark.history.retainedApplications	250	在history server上显示的最大应用程序数量，如果超过这个值，旧的应用程序信息将被删除。
spark.history.ui.port	18080	history server的默认访问端口
spark.history.kerberos.enabled	false	是否使用kerberos方式登录访问history server，对于持久层位于安全集群的HDFS上是有用的。如果设置为true，就要配置下面的两个属性。
spark.history.kerberos.principal	空	用于history server的kerberos主体名称
spark.history.kerberos.keytab	空	用于history server的kerberos keytab文件位置
spark.history.ui.acls.enable	false	授权用户查看应用程序信息的时候是否检查acl。如果启用，无论应用程序的spark.ui.acls.enable怎么设置，都要进行授权检查，只有应用程序所有者和spark.ui.view.acls指定的用户可以查看应用程序信息;如果禁用，不做任何检查。 driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录，如果不使用stop（）方法，即使在指定目录中产生该应用程序的目录，history server也将不会加载该应用程序的运行信息。所以如果直接使用Spark1.0.0源代码/examples/src/main/python/pi.py，就无法显示其应用程序，在最后加上一行sc.stop()后，就可以显示。driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录，如果不使用stop（）方法，即使在指定目录中产生该应用程序的目录，history server也将不会加载该应用程序的运行信息。所以如果直接使用Spark1.0.0源代码/examples/src/main/python/pi.py，就无法显示其应用程序，在最后加上一行sc.stop()后，就可以显示

Spark集群之Spark history server额外配置的更多相关文章

Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境
目标配置一个spark standalone集群 + akka + kafka + scala的开发环境. 创建一个基于spark的scala工程,并在spark standalone的集群环境中运 ...
Spark集群模式&Spark程序提交
Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...
【待补充】Spark 集群模式 && Spark Job 部署模式
0. 说明 Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式 [ Local ] 使用一个 JVM 模拟 Spark 集群 [ Standalone ...
Spark集群 + Akka + Kafka + Scala 开发(3) : 开发一个Akka + Spark的应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
Spark集群 + Akka + Kafka + Scala 开发(2) : 开发一个Spark应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境,我们已经部署好了一个Spark的开发环境. 本文的目标是写一个Spark应用,并可以在集群中测试. ...
Spark集群 + Akka + Kafka + Scala 开发(4) : 开发一个Kafka + Spark的应用
前言在Spark集群 + Akka + Kafka + Scala 开发(1) : 配置开发环境中,我们已经部署好了一个Spark的开发环境. 在Spark集群 + Akka + Kafka + S ...
Spark集群搭建简要
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...
Spark 集群搭建
0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 19 ...
四、spark集群架构
spark集群架构官方文档:http://spark.apache.org/docs/latest/cluster-overview.html 集群架构我们先看这张图这张图把spark架构拆分成了 ...

随机推荐

C++STL priority_queue
priority_queue优先级队列最大值优先级队列(队头是最大值) 最小值优先级队列(队头是最小值) priority_queue<int> q1;//默认定义为最大值优先级队列 ...
python：OS模块
r"""OS routines for NT or Posix depending on what system we're on. This exports: - al ...
第25章：MongoDB-文档存储[理解]
① 将文档插入到MongoDB的时候,文档是按照插入的顺序,依次在磁盘上相邻保存因此,一个文档变大了,原来的位置要是放不下这个文档了,就需要把这个文档移动到集合的另外一个位置,通常是最后,能放下这个 ...
第04章：MongoDB基本概念
① 数据库 MongoDB的一个实例可以拥有一个或多个相互独立的数据库,每个数据库都有自己的集合集合集合可以看作是拥有动态模式的表文档文档是MongoDB中基本的数据单元,类似于RDB ...
Iframe跨域JavaScript自动适应高度
重点分析: 主域名页面:页面A,页面C 其它域名页面:页面B 步骤: 1.页面A(主域名)通过Iframe(id="iframeB")嵌套页面B(其它域名) 2.页面B(其它域名) ...
Camtasia studio8.0破解方法
Camtasia Studio 8.0 注册说明: 1.安装时使用以下信息注册: 用户名: Honorary User密钥: GCABC-CPCCE-BPMMB-XAJXP-S8F6R 或者是 Nam ...
防火墙内JVisualVM连接jstatd解决方案
jstatd启动后会打开两个端口,其中一个端口可通过参数“-p”指定,如果不指定默认为1099,另一个是一个随机端口,不能参数指定: # netstat -lpnt|grep jstatd tcp ...
mysql 数据类型及java对应关系
http://www.cnblogs.com/jerrylz/p/5814460.html Java数据类型和MySql数据类型对应表 http://www.cnblogs.com/yiwd/p ...
FastDFS与springBoot集成
参考博客http://blog.csdn.net/xyang81/article/details/52850667 tobato在今年9月份在官方Java客户端的基础上进行了大量重构,且提供了更多丰富 ...
Html5与Css3知识点拾遗（一）
1.元素空元素: 可选的空格空格和斜杠 <img src="x.jpg" width="300" alt="pic" /> & ...

Spark集群之Spark history server额外配置

Spark集群之Spark history server额外配置的更多相关文章

随机推荐

热门专题