Spark Standalone
环境:CentOS 6.6 x64 选用Spark版本 1.4.1、Zookeeper 3.4.6
一、安装
1、Spark运行模式
Local:使用于windows和linux平台(多用于测试,细分可分为5种情况)
Standalone:spark集群模式,使用spark自己的调度方式
On Yarn:运行在Hadoop 2的Yarn资源管理框架之上,由Yarn负责资源管理,Spark负责任务调度和计算(又可分为2种情况)
On Mesos:Mesos是一个类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共享,可以运行Hadoop、Spark等框架。同上
On Cloud:Spark支持HDFS、S3等多种分布式存储系统,可以进行云存储,例如AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3
2、Standalone模式集群安装
2.1、前置环境准备
安装好JDK,推荐版本: 1.7.x;
设置SSH免密码登录、hosts、hostname、静态ip、iptables等
2.2、下载、解压安装包到指定目录下(注意版本问题):
# wget http://219.238.7.75/files/5165000007D0B131/www.eu.apache.org/dist/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.6.tgz
# tar -zxvf softs/spark-1.4.-bin-hadoop2..tgz -C /usr/local/
# cd /usr/local/
# mv spark-1.4.-bin-hadoop2./ spark-1.4.
2.3、修改配置文件
(1)修改spark-env.sh,根据实际情况,在文件末尾添加参数
# cd spark-1.4./conf/
# cp spark-env.sh.template spark-env.sh
# vim spark-env.sh
配置参数说明:
基本配置:
export JAVA_HOME=/opt/jdk1..0_45
export SPARK_MASTER_IP=127.0.0.1 #指定主节点,可以填写ip或者主机名,所以要在前置环境中配置好hosts文件里ip和hostname的映射关系
export SPARK_WORKER_CORES= #配置worker节点的cpu核数
export SPARK_MASTER_PORT= #spark URL端口,如 spark://master:7076
export SPARK_MASTER_WEBUI_PORT= #master webUI地址
export SPARK_WORKER_WEBUI_PORT= #worker webUI地址
export SPARK_WORKER_MEMORY=10g #每个worker占多少内存
高级参数:
export SPARK_JAVA_OPTS="-verbose:gc -XX:-PrintGCDetails -XX:+PrintGCTimeStamps” #用来设置GC参数
export SPARK_WORKER_INSTANCES= #启动多少个worker,一台从节点机器可以有多个WORKER,一个worker启动一个JVM
# 提示:SPARK_WORKER_CORES * SPARK_WORKER_INSTANCES = 每台机器总cores
# 应用场景:单台服务器的内存超过200G时。原因是单个机器内存配置超过200G时配置,因为java VM在超过200G的服务器上性能不好。 export SPARK_PID_DIR=/usr/local/spark/tmp #worker.pid或者master.pid默认位置在/tmp 文件夹
# 说明:RHEL6系统默认会每隔30天自动清理/tmp文件夹 export spark.local.dir=/opt1/spark, /opt2/spark, /opt3/spark #各个磁盘挂载到不同opt目录下面
# 说明:这是spark写shuffle输出的地⽅,增加IO输出到不同的磁盘等于加快了执行速度
注意:参数和=号之间没有空格。
(2)创建slaves文件
创建slaves文件,将全部节点的hostname或者ip列表添加进去。
(3)分发软件包
将上述配置好的软件包用scp工具分发到各个节点上的同一目录。
2.4、集群启动与验证
(1)启动集群各节点
# sbin/start-all.sh
starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark-1.4./sbin/../logs/spark-root-org.apache.spark.deploy.master.Master--node0.out
node0: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark-1.4./sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker--node0.out
node0: failed to launch org.apache.spark.deploy.worker.Worker:
node0: full log in /usr/local/spark-1.4./sbin/../logs/spark-root-org.apache.spark.deploy.worker.Worker--node0.out
# jps #注意:启动有延迟,可以用jps命令查看进程,如果启动成功后会有Master和Worker进程
Master
Worker
Jps
(2)验证
浏览器访问对应节点的8080端口,如果能正常访问说明集群搭建成功。
注意:1、Windows下访问时需要设置hosts文件,其映射列表从Linux上的hosts复制即可。
2、如果8080端口被其他程序占用,可以修改其他端口,方法:
编辑文件:sbin/start-master.sh,找到SPARK_MASTER_WEBUI_PORT=8080 进行修改即可。
3、Standalone配置HA
3.1、下载、解压Zookeeper
# wget http://124.205.69.171/files/71380000000A6162/mirrors.cnnic.cn/apache/zookeeper/stable/zookeeper-3.4.6.tar.gz^C
# tar -zxvf zookeeper-3.4..tar.gz -C /usr/local
3.2、配置zk.conf文件
# mv zookeeper-3.4. zookeeper
# cd zookeeper/conf
# vim zoo.cfg
参数如下:
tickTime=
initLimit=
syncLimit= dataDir=/usr/local/zookeeper/data #需要修改的参数
logDir=/usr/local/zookeeper/logs #需要修改的参数 clientPort= server.=IP0:: #需要修改的参数,注意这里对应集群的IP
server.=IP1::
server.=IP2::
server.=IP3::
注意重命名zookeeper文件名,否则带有-3.4.6可能会导致zk启动失败
3.3、创建节点标识
在数据存储目录下创建当前节点的标识myid
# cd zookeeper/
# mkdir data
# cd data/
# vim myid
配置成功后,将Zookeeper软件包分发到各个节点上的同一位置。
注意:修改各个节点的myid标识,要和当前zoo.cfg中IP和标识的对应关系一致。
3.4、启动、验证zk集群
(1)启动
在各个节点上均启动zk,执行指令如下:
# bin/zkServer.sh start
(2)验证
# bin/zkServer.sh status #查看当前节点上的zk角色
# jps #查看进程
3.4、配置Spark
(1)停止Spark
# /usr/local/spark-1.4./sbin/stop-all.sh
注:HA的前提是standalone模式已经能够正常运行。
(2)修改spark-env.sh
# cd /usr/local/spark-1.4./conf
# vim spark-env.sh
注释掉SPARK_MASTER_IP参数,不强制某一节点为主节点。
添加如下参数:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node0:2181,node1:2181 -Dspark.deploy.zookeeper.dir=/spark" #指定Zookeeper的地址及HA方式给Spark
(3)分发配置文件,启动各个节点
使用scp命令分发新的配置文件spark-env.sh到各节点,覆盖原文件,并用sbin/start-all.sh启动各个节点上的Spark。
3.5、验证
在master所在的机器执行jps,查看进程,然后在另一节点上执行sbin/start-master.sh。
此时,在8080端口访问的Web页面上,可以看到集群有两个master,一个处于活跃状态active,另一个处于备用状态standby。
强制关闭活跃master节点上的Spark :sbin/stop-master.sh,过一会儿若备用的master变为活跃状态,说明HA配置成功。
4、可能出现的问题及解决方案
(1)Zookeeper集群启动失败
一:集群时钟不同步,解决同步集群时钟;根据实际情况,可考虑自己在集群内部部署一台时钟服务器。
二:时钟同步正常,但集群不能正常操作,通过zkCli连接某些节点时,一直打印日志:
解决方案:bin/zkCleanup.sh count 3
三: 查看myid、zk.cfg等配置文件有无遗漏,是否有配置冲突等现象;
删除zk节点中,data目录下除myid文件之外的所有内容
将Zookeeper的文件夹名称里的-3.4.6等版本信息去掉;
扩展参考:
Spark运行模式及原理(一) - 图书-炼数成金-Dataguru专业数据分析社区 http://www.dataguru.cn/article-6803-1.html
Spark Standalone的更多相关文章
- spark standalone ha spark submit
when you build a spark standalone ha cluster, when you submit your app, you should send it to the l ...
- Spark standalone HA
配置Spark standalone HA 主机:node1,node2,node3 master: node1,node2 slave:node2,node3 修改配置文件: node1,node3 ...
- spark standalone zookeeper HA部署方式
虽然spark master挂掉的几率很低,不过还是被我遇到了一次.以前在spark standalone的文章中也介绍过standalone的ha,现在详细说下部署流程,其实也比较简单. 一.机器 ...
- Windows下IntelliJ IDEA中运行Spark Standalone
ZHUAN http://www.cnblogs.com/one--way/archive/2016/08/29/5818989.html http://www.cnblogs.com/one--wa ...
- (二)win7下用Intelij IDEA 远程调试spark standalone 集群
关于这个spark的环境搭建了好久,踩了一堆坑,今天 环境: WIN7笔记本 spark 集群(4个虚拟机搭建的) Intelij IDEA15 scala-2.10.4 java-1.7.0 版本 ...
- 【原】Spark Standalone模式
Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络 ...
- Spark standalone安装(最小化集群部署)
Spark standalone安装-最小化集群部署(Spark官方建议使用Standalone模式) 集群规划: 主机 IP ...
- Spark Standalone模式应用程序开发
作者:过往记忆 | 新浪微博:左手牵右手TEL | 能够转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:<Spar ...
- Spark Standalone Mode Configuration
For currently popular distributed framework Spark, here is the intro and step to configure the spark ...
- Spark Standalone spark-env.sh
export JAVA_HOME=/app/jdk export SPARK_MASTER_PORT=7077 export SPARK_MASTER_WEBUI_PORT=8080 export S ...
随机推荐
- Eclipse不自动编译java文件的终极解决方案
最近我的eclipse经常犯傻,项目中总是有很多,启动项目也是没有启动类.查了下项目中生成的class文件,我靠竟然没有,或者还是以前的.原来是eclipse犯傻了,它没帮我自动编译java文件.一般 ...
- 好压(HaoZip)的命令行模式用法介绍
好压压缩软件,又叫“2345好压”,是一款国产的优秀压缩软件,目前是免费的,据官网介绍,该软件永久免费.官网地址:http://haozip.2345.com/ 本文主要对该软件的命令行模式用法进行介 ...
- Spring远程调用技术<1>-RMI
在java中,我们有多种可以使用的远程调用技术 1.远程方法调用(remote method invocation, RMI) 适用场景:不考虑网络限制时(例如防火墙),访问/发布基于java的服务 ...
- LL(1)算法
编译原理的语法分析中一个入门的算法就是LL(1)算法了,这里做一个总结.首先比较重要的是FIRST集和FOLLOW集合的生成. 先上个例子吧: 首先说一下FIRST集的生成,这个就要看产生式右部对应的 ...
- 用Access为支撑,书写一个用C#写入数据库的案列
/// <summary> /// 读取Excel文档 /// </summary> /// <param name="Path">文件名称&l ...
- poj[1187][Noi 01]陨石的秘密
Description 公元11380年,一颗巨大的陨石坠落在南极.于是,灾难降临了,地球上出现了一系列反常的现象.当人们焦急万分的时候,一支中国科学家组成的南极考察队赶到了出事地点.经过一番侦察,科 ...
- bzoj[1087][SCOI2005]互不侵犯King
Description 在N×N的棋盘里面放K个国王,使他们互不攻击,共有多少种摆放方案.国王能攻击到它上下左右,以及左上左下右上右下八个方向上附近的各一个格子,共8个格子. Input 只有一行,包 ...
- codevs 2924 数独挑战
2924 数独挑战 http://codevs.cn/problem/2924/ 题目描述 Description "芬兰数学家因卡拉,花费3个月时间设计出了世界上迄今难度最大的数独游戏,而 ...
- .NET添加时间戳防止重放攻击
如过客户端在向服务端接口进行请求,如果请求信息进行了加密处理,被第三方截取到请求包,虽然第三方无法解密获取其中的数据,但是可以使用该请求包进行重复的请求操作.如果服务端不进行防重放攻击,就会参数服务器 ...
- 一个key 在10w k/v 找到对应的. (B-tree), 这10w放进B-tree 会有多少层.
B-tree是二叉平衡查找树,相邻两层节点层数不超过1 所有10w 即 2^16=65536 < 10w < 2^17=131072: 会有17层,最多查询17次.