部署spark 1.3.1 standalong模式

之前已经写过很多次部署spark 的博客，但是之前部署都是照瓢画葫芦，不得其中的细节，并且以前都是部署spark on yarn

部署环境

scala 2.10.2，jdk 1.6，spark 版本1.3.1 下载地址：https://spark.apache.org/downloads.html

两台ubuntu14.04 x64桌面版，其中ubuntu1 做master ， ubuntu2 做slave，

spark 版本为 1.3.1

部署spark 前，首先要做的配置两台机器的信任关系，安装jdk，安装scala，设置好环境变量JAVA_HOME 和 SCALA_HOME

开始部署（需要同时对两台机器执行）

1 对spark-1.3.1-bin-hadoop2.6.tgz 进行解压，解压地址为 /opt/spark-1.3.1-bin-hadoop2.6

tar -zxvf /opt/spark-1.3.-bin-hadoop2..tgz

2 配置spark-env.sh

拷贝spark-env.sh 模版（其实里面什么也没有，都是注释）

cp /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh.template /opt/spark-1.3.-bin-hadoop2./conf/spark-env.sh

给spark-env.sh 增加参数

SPARK_MASTER_PORT=""

SPARK_MASTER_WEBUI_PORT=""

SPARK_CLASSPATH="/opt/sequoiadb/java/sequoiadb.jar:/opt/sequoiadb/spark/spark-sequoiadb_2.10-1.12.jar"

SPARK_MASTER_IP="ubuntu1"
SPARK_WORKER_INSTANCES="3"
MASTER="spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}"

# 更改spark-master-rest 的端口

SPARK_MASTER_OPTS="-Dspark.master.rest.port=7000"

SPARK_WORKER_MEMORY="40g"

SPARK_WORKER_CORES=10
export JAVA_HOME="/opt/jdk1.6.0_45"

我来简单解释一下，有些参数可能我理解得不对，如果有误，请大家指出，谢谢！

SPARK_MASTER_PORT  指定 spark master 的启动端口，默认为 7077
SPARK_MASTER_IP   指定spark 集群的master ip 地址，主要是让各个worker 知道master 在哪里

SPARK_WORKER_INSTANCES 指定每台机器启动多少个worker，worker 越多，计算并发能力越强，资源的使用率越高（但是过多worker也容易将机器跑死）

SPARK_MASTER_WEBUI_PORT 指定 spark master 的web ui 端口，就是后续从web 端查看spark 执行任务情况的端口号，默认为8080

SPARK_CLASSPATH 增加spark 运行时依赖的jar 包，由于我这里是对SequoiaDB 进行对接，所以这里填写了sdb 的驱动。 如果大家对如何对接SequoiaDB，可以移步到 http://www.sequoiadb.com/cn/document/1.12/integration/spark_integration/installation/topics/install_by_manual.html

SPARK_MASTER_OPTS 增加 jvm 运行时的参数，这里主要是指定了 master 的rest 端口，默认是6066

SPARK_WORKER_MEMORY 指定Worker 最大的存储大小

SPARK_WORKER_CORES 指定每个Worker 最多可以拥有CPU 核数

export JAVA_HOME="/opt/jdk1.6.0_45" 这句是写明JAVA_HOME 在哪里（虽然我在env 里设置了，但是它就是会出现莫名奇怪的错误，所以我干脆设置它）

3 指定slave

拷贝slave 模版文件

cp /opt/spark-1.3.-bin-hadoop2./conf/slaves.template /opt/spark-1.3.-bin-hadoop2./conf/slaves

往里面增加slave 的hostname

ubuntu2

4 修改log4j 配置文件

cp conf/log4j.properties.template conf/log4j.properties

将里面的配置修改为WARN，避免运行时输出太多信息

log4j.rootCategory=WARN, console

log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=WARN

log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=WARN

5 启动spark

/opt/spark-1.3.-bin-hadoop2./sbin/start-all.sh

启动后可以通过浏览器查看spark 的状况，例如：http://192.168.231.135:8010/

这样我们就正确部署好standalone版本的spark 了

部署spark 1.3.1 standalong模式的更多相关文章

spark 源码编译 standalone 模式部署
本文介绍如何编译 spark 的源码,并且用 standalone 的方式在单机上部署 spark. 步骤如下: 1. 下载 spark 并且解压本文选择 spark 的最新版本 2.2.0 (20 ...
Spark internal - 多样化的运行模式（上）
Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行.而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn , ...
2 Spark角色介绍及运行模式
第2章 Spark角色介绍及运行模式 2.1 集群角色从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点:Master节点主要运行集群管理器的中心化部分,所承 ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
Spark进阶之路-Standalone模式搭建
Spark进阶之路-Standalone模式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Spark的集群的准备环境 1>.master节点信息(s101) 2&g ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
使用Cloudera Manager部署Spark服务
使用Cloudera Manager部署Spark服务作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 1>.点击添加服务进入CM服务安装向导 2>.选择需要安装的spa ...
小记--------spark的两种提交模式
spark的两种提交模式:yarn-cluster . yarn-client 图解
大话Spark(5)-三图详述Spark Standalone/Client/Cluster运行模式
之前在大话Spark(2)里讲过Spark Yarn-Client的运行模式,有同学反馈与Cluster模式没有对比, 这里我重新整理了三张图分别看下Standalone,Yarn-Client 和 ...

随机推荐

3.改变 HTML 内容
①x=document.getElementById("demo") //查找元素 ②x.innerHTML="Hello JavaScript"; //改变内 ...
不使用库函数，编写函数int strcmp(char *source, char *dest) 相等返回0，不等返回-1【转】
本文转载自:http://www.cppblog.com/mmdengwo/archive/2011/04/14/144253.aspx #include <stdio.h>#includ ...
CodeForces - 385E Bear in the Field —— 矩阵快速幂
题目链接:https://vjudge.net/problem/CodeForces-385E E. Bear in the Field time limit per test 1 second me ...
HDU2586 How far away? —— 倍增LCA
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2586 How far away ? Time Limit: 2000/1000 MS (Java/Ot ...
理解HTML解析过程
浏览器解析html的过程是:接受网络数据->将二进制码变成字符->将字符变为unicode code points.->tokenizer ->tree constructor ...
uglifyjs2全局混淆
从git克隆uglifyjs2源码后,进入目录: npm link 编译并安装uglifyjs2成功,就可以直接调用uglifyjs命令了.但是在进行全局混淆时出现了问题,虽然指定了文件topvar. ...
luogu 3812 【模板】线性基
线性基是一个支持在集合里插入数并查询最大子集异或值 #include<iostream> #include<cstdio> #include<cstring> #i ...
Swift类型转换
关于「类型转换」(Type Casting),<The Swift Programming Language>描述如下: Type casting is a way to check th ...
「LuoguP2420」让我们异或吧（树上前缀和
P2420 让我们异或吧-洛谷题目描述异或是一种神奇的运算,大部分人把它总结成不进位加法. 在生活中…xor运算也很常见.比如,对于一个问题的回答,是为1,否为0.那么: (A是否是男生 )xor ...
P2383 狗哥玩木棒
题目背景狗哥又趁着语文课干些无聊的事了... 题目描述现给出一些木棒长度,那么狗哥能否用给出的木棒(木棒全用完)组成一个正方形呢? 输入输出格式输入格式: 输入文件中的第一行是一个整数n表示测试 ...

部署spark 1.3.1 standalong模式

部署spark 1.3.1 standalong模式的更多相关文章

随机推荐

热门专题