Spark on Yarn——spark1.5.1集群配置
写在前面:
spark只是一种计算框架,如果要搭建集群要依托与一定的组织模式。
目前来说,Spark集群的组织形式有三种:
1. Standalone:使用akka作为网络IO组件,master和worker之间采用actor模型进行组织。简单说就是spark自己实现了集群中的各个节点上的服务。
2. Yarn:直接使用Yarn框架完成资源分配和分布式管理功能,spark只是简单地把任务提交给yarn框架。
3. Mesos:不太清楚。(好像比较古老了)
因此,要搭建一个spark集群,首先要选择一种组织形式,对于我来说以前用过一点Hadoop+MapReduce,因此选择比较熟悉的基于Hadoop的yarn框架,现在网上也有一些教程可供参考。
环境及软件版本型号列表:
Ubuntu 14.04 64位
JDK:jdk-7u80-linux-x64 (网址http://www.oracle.com/technetwork/java/javase/archive-139210.html)
scala:scala-2.10.4 (网址http://www.scala-lang.org/download/2.10.4.html)
Hadoop:hadoop-2.6.2(网址https://hadoop.apache.org/#Download+Hadoop)
spark: sark-1.5.1(要求hadoop2.6+)(网址http://spark.apache.org/downloads.html)(最好是下载pre-built版本的,这样就不用自己额外编译了)
配置集群的大体步骤:
修改hosts文件,使节点时间互相ping通 --》建立ssh连接 --》 为每台机器装JDK与SCALA --》 主机装Hadoop并配置好 --》 通过主机将Hadoop发送至各个从节点 --》 主机配置spark --》 通过主机将配置好的spark发送至各个从节点 --》 完成
通过以上的步骤可以看出,由于我们是把Hadoop及spark一起发送至子节点,因此要求我们的每台机器都有相同的文件路径结构(我的是在所有节点上新建了一个路径放置所有的jdk, scala, hadoop, spark文件,如:~/Downloads/spark_sdk),及相同的用户名(这里指Ubuntu系统admin@master, @前面的admin表示该机器的用户名,@后面的master表示该机器的名称)。
--------------------------------------------------------------配置步骤正式开始---------------------------------------------------------------------------------------
1. 修改每个节点的hosts文件:
sudo /etc/hosts (每台主机操作)
114.212.80.243 master
114.212.81.244 slave1
114.212.82.117 slave2
(在不同机器上互相ping,看是否能够ping通)
ping master
ping slave1
ping slave2
2. ssh免密码登陆。
(1) 为确保ssh可以互连,不会出问题,最好先把防火墙关闭或卸载(每台机器)。
sudo apt-get remove iptables
(2) 每台机器安装ssh server.
sudo apt-get install openssh-server
(3) 每台机器生产公钥和私钥。
ssh-keygen -t rsa (一路回车)
(4) 每个从节点上的id_rsa.pub发给master节点。
scp /home/master/.ssh/id_rsa.pub master@master:/home/master/.ssh/id_rsa.pub.slave1 scp /home/master/.ssh/id_rsa.pub master@master:/home/master/.ssh/id_rsa.pub.slave2
(5) 在master上,将所有公钥加到用于认证的公钥文件authorized_keys中.
cat ./.ssh/id_rsa.pub* >> ./.ssh/authorized_keys (可以按照上面的路径写成绝对路径的形式)
(6) 将公钥文件authorized_keys分发给每台slave.
scp /home/master/.ssh/authorized_keys master@slave1:/home/master/.ssh/
(7) 在每台机子上验证SSH无密码通信.(第一次通信时需要密码,以后则不需要)
ssh master
ssh slave1
ssh slave2
(8) 如果登陆测试不成功,则可能需要修改文件authorized_keys的权限。
chmod 600 /home/master/.ssh/authorized_keys
(现在,完成机器间的护筒之后,下面所有的jdk,scala等得安装可以通过Master用ssh来操控了。)
2. 安装JDK
我的是将JDK解压在 ~/Downloads/spark_sdk/文件夹下。
tar zxvf jdk-7u80-linux-x64.tar.gz ~/Downloads/spark_sdk/
然后配置bashrc文件。(bashrc与profile的区别:bashrc是指当前用户的环境变量的设置,profile是整个机器的环境变量的设置。对于单用户来说,我们设置bashrc即可。显然,bashrc优先级大于profile)。
vim ~/.bashrc
加入如下JDK的配置:
export JAVA_HOME=~/Downloads/spark_sdk/jdk1.7.0_80
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
使bashrc生效:
source ~/.bashrc
测试JDK是否安装成功:
java -version
(所有机器一样,Slave机器可以通过Master操纵)
3. 安装scala
将scala解压在~/Downloads/spark_sdk/文件夹下。
tar zxvf scala-2.10.4.tgz ~/Downloads/spark_sdk/
然后配置bashrc文件。
vim ~/.bashrc
加入如下scala的配置:
export SCALA_HOME=~/Downloads/spark_sdk/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
使bashrc生效:
source ~/.bashrc
测试scala是否安装成功:
scala -version
(所有机器一样,Slave机器可以通过Master机器操控,更简单的是,把文件用scp传送到相应位置后,直接把bashrc传送过去,避免所有机器配置)
4. 配置Hadoop集群。
在主节点上配置好了,直接发送至从节点即可。
详细的配置过程见Jerk's blog http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/
5. 配置spark。
如果Hadoop集群成功构建,则spark在Master上配置好后,发送给Slave节点即可。
写在后面:
配置环境永远是令程序员们最头疼的一件事,可是往往通过配置环境,我们才可以更加了解我们正在使用的这个工具,我们的机器,我们的架构的更底层工作方式。而不是只会使用,不知为何这样做的。
在过程中也会遇到各种各样的问题,往往一个错误就会跳出一整个屏幕的提示信息,错误等,令人眼花缭乱。所以我的感想就是:
- 要仔细阅读info提示信息;
- 慢就是快;
- 最好知道每个配置文件的信息代表的什么意思。
Spark on Yarn——spark1.5.1集群配置的更多相关文章
- 【原创】大叔经验分享(14)spark on yarn提交任务到集群后spark-submit进程一直等待
spark on yarn通过--deploy-mode cluster提交任务之后,应用已经在yarn上执行了,但是spark-submit提交进程还在,直到应用执行结束,提交进程才会退出,有时这会 ...
- Hadoop入门学习笔记-第三天(Yarn高可用集群配置及计算案例)
什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件 ...
- 搭建Hadoop2.6.0+Spark1.1.0集群环境
前几篇文章主要介绍了单机模式的hadoop和spark的安装和配置,方便开发和调试.本文主要介绍,真正集群环境下hadoop和spark的安装和使用. 1. 环境准备 集群有三台机器: master: ...
- Ubuntu 12.04下spark1.0.0 集群搭建(原创)
spark1.0.0新版本的于2014-05-30正式发布啦,新的spark版本带来了很多新的特性,提供了更好的API支持,spark1.0.0增加了Spark SQL组件,增强了标准库(ML.str ...
- Yarn篇--搭建yran集群
一.前述 有了上次hadoop集群的搭建,搭建yarn就简单多了.废话不多说,直接来 二.规划 三.配置如下 yarn-site.xml配置 <property> <n ...
- Scala进阶之路-Spark独立模式(Standalone)集群部署
Scala进阶之路-Spark独立模式(Standalone)集群部署 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道Hadoop解决了大数据的存储和计算,存储使用HDFS ...
- hadoop集群配置方法---mapreduce应用:xml解析+wordcount详解---yarn配置项解析
注:以下链接均为近期hadoop集群搭建及mapreduce应用开发查找到的资料.使用hadoop2.6.0,其中hadoop集群配置过程下面的文章都有部分参考. hadoop集群配置方法: ---- ...
- Hadoop YARN学习之监控集群监控Nagios(4)
doop YARN学习之监控集群监控Nagios(4) 1. Nagios是一个流行的开源监控工具,可以用来监控Hadoop集群. 2. 监控基本的Hadoop服务 调试好脚本后命名为chek_res ...
- CentOS6安装各种大数据软件 第四章:Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件 第一章:各个软件版本介绍 CentOS6安装各种大数据软件 第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件 第三章:Linux基础 ...
随机推荐
- ImportError : cannot import name main
当我们有时候安装不成功插件或者其他模块时候,会有pip报错hu@hu-VirtualBox:~/下载/MySQL-python-1.2.4b4$ pip install pymysqlTracebac ...
- shell编程中的vim命令说明
vim命令模式: 1.一般命令模式 2.编辑模式 3.底行命令行命令模式 一般命令模式 直接用字符操作编辑模式 可以写文档(跟txt有点像)底行命令模式 先按'ESC',在按下“:”,之后在输出命令 ...
- jquery操作元素的位置
.offset() 在匹配的元素中,获取第一个元素的当前坐标,或设置每一个元素的坐标,坐标相对于文档. .offset() 这个不接受任何参数. var offset = p.offset(); // ...
- 异构数据库迁移——DATAX
背景 在最近接触到的一个case里面,需要把db2的数据迁移至oracle,客户可接收的停机时间为3小时. 同步方式的比较 一说到停机时间,大家第一时间想到Oracle公司的GoldenGate实时同 ...
- Win10上Anaconda环境下python3.6安装和使用pyinstaller
一.安装步骤 1. 电脑是win10,安装的Python3.6 2. 在Scripts文件夹下执行pip install pyinstaller, 安装成功后下载pyinstaller安装包,解压之后 ...
- DNS的主从,转发与负载功能
接着原来<DNS原理与应用>的文章,本章内容主要通过实现DNS的主从,转发,及基于域名解析不同的ip实现后端服务负载均衡的效果.最后再实现DNS的高级功能:类似CDN原理实现基于IP实现区 ...
- 给树莓派Raspbian stretch版本修改软件源
树莓派最新的系统版本是stretch,试了阿里和网易的软件源都不行,最后试了清华的可以 deb http://mirrors.tuna.tsinghua.edu.cn/raspbian/raspbia ...
- 银行卡验证API
一.银联开放平台 https://open.unionpay.com/tjweb/api/detail?apiSvcId=21 应用场景 综合数据服务平台是银联为接入商户提供的综合数据认证服务接口,目 ...
- 使用cookie登陆知乎
只是想说明一个问题,Cookie可以维持登录状态,有些网页当中,访问之后的cookie里面带有登陆账号,和登陆密码,这样可以使用cookie直接访问网页,如知乎,首先登录知乎,将Headers中的Co ...
- Sqoop 工具使用
Sqoop 是什么及安装 Hadoop sqoop Apache sqoop (SQL to Hadoop) Sqoop is a tool designed to transfer data bet ...