hadoop - spark on yarn 集群搭建

一、环境准备

1. 机器： 3 台虚拟机

机器	角色
l-qta3.sp.beta.cn0	NameNode,ResourceManager,spark的master
l-querydiff1.sp.beta.cn0	DataNode,NodeManager,Worker
l-bgautotest2.sp.beta.cn0	DataNode,NodeManager,Worker

2. jdk版本

[xx@l-qta3.sp.beta.cn0 ~]$ java -version
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build 1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)

3. 准备工作

　　1）ssh 免密登陆：集群中的机器需要相互免密访问。参考：http://www.cnblogs.com/lijingchn/p/5580263.html

　　2）hadoop 2.6.5 binary 下载。地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

4. 解压 hadoop-2.6.5.tar.gz

将hadoop-2.6.5.tar.gz解压缩到 /home/q/

　 cmd : tar -xzvf hadoop-2.6.5.tar.gz -C /home/q/

5. 修改配置文件

　配置文件都在 etc/hadoop/下，这些配置文件里面都有样例，有些是必须设置的。官网配置的介绍：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/ClusterSetup.html

　 5.1 修改hadoop-env.sh

　　　　export JAVA_HOME=xxx -- java 的安装目录

　 5.2 修改yarn-env.sh

　　　　export JAVA_HOME=xxxx

　 5.3 修改slaves 配置slave的机器名 (这些机器需要能按机器名ping通，即要需要/etc/hosts 文件，按 ip 空格机器名的格式设置。)

　　　slave1

　　　slave2

　 5.4 配置core-site.xml　（从core-site.xml.example copy 过来一个,重命名即可。）　

<configuration>
　　 <!-- 文件系统的地址，jdycluster 对应的是namenode 的地址，这里需要将namenode 的hosts 映射到这个名称。 -->
<property>

        <name>fs.defaultFS</name>

        <value>hdfs://jdycluster</value>

    </property>    

    <property>

        <name>io.file.buffer.size</name>

        <value>4194304</value>

    </property>

    <property>

        <name>fs.trash.interval</name>

        <value>1440</value>

    </property>

    <property>

        <name>io.compression.codecs</name>

        <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org

.apache.hadoop.io.compress.SnappyCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec</value>

    </property>

    <property>

        <name>io.compression.codec.lzo.class</name>

        <value>com.hadoop.compression.lzo.LzoCodec</value>

    </property>

    <property>

        <name>ha.failover-controller.cli-check.rpc-timeout.ms</name>

        <value>60000</value>

    </property>

    <property>

        <name>ipc.client.connect.timeout</name>

        <value>60000</value>

    </property>

    <!-- to solve "impersonate" issue -->

        <property>

            <name>hadoop.proxyuser.jdydev.hosts</name>

            <value>*</value>

        </property>

        <property>

            <name>hadoop.proxyuser.jdydev.groups</name>

            <value>*</value>

        </property>

</configuration>

　　5.5 配置hdfs-site.xml

<configuration>

    <property>

        <name>dfs.nameservices</name>

        <value>jdycluster</value>

    </property>
　　<!-- 目录需要自己建好 -->

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/home/q/hadoop-2.6.5/dfs/name</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.blocksize</name>

        <value>268435456</value>

    </property>

    <property>

        <name>dfs.namenode.handler.count</name>

        <value>100</value>

    </property>

    <property>

        <name>dfs.webhdfs.enabled</name>

        <value>true</value>

    </property>

　　<!--- 目录需要自己建好 --->

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/home/q/hadoop-2.6.5/dfs/data</value>

    </property>

    <property>

        <name>dfs.ha.namenodes.jdycluster</name>

        <value>nn1</value>

    </property>

    <property>

        <name>dfs.namenode.rpc-address.jdycluster.nn1</name>

        <value>l-qta3.sp.beta.cn0:8020</value>

    </property>

    <property>

        <name>dfs.namenode.http-address.jdycluster.nn1</name>

        <value>l-qta3.sp.beta.cn0:50070</value>

    </property>


    <property>

        <name>dfs.client.failover.proxy.provider.jdycluster</name>

        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

    </property>

　　 <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

</configuration>

　　5.6 配置mapred-site.xml, 这里都是map-reduce 的参数

<configuration>

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

    <property>

        <name>mapreduce.map.memory.mb</name>

        <value>1536</value>

    </property>

    <property>

        <name>mapreduce.map.java.opts</name>

        <value>-Xmx1024M</value>

    </property>

    <property>

        <name>mapreduce.reduce.memory.mb</name>

        <value>3072</value>

    </property>

    <property>

        <name>mapreduce.reduce.java.opts</name>

        <value>-Xmx2560M</value>

    </property>

    <property>

        <name>mapreduce.task.io.sort.mb</name>

        <value>512</value>

    </property>

    <property>

        <name>mapreduce.task.io.sort.factor</name>

        <value>100</value>

    </property>

    <property>

        <name>mapreduce.reduce.shuffle.parallelcopies</name>

        <value>50</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.address</name>

        <value>l-qta3.sp.beta.cn0:10020</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.webapp.address</name>

        <value>l-qta3.sp.beta.cn0:19888</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.intermediate-done-dir</name>

        <value>/mr-history/tmp</value>

    </property>

    <property>

        <name>mapreduce.jobhistory.done-dir</name>

        <value>/mr-history/done</value>

    </property>

　　5.7 配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->

    <property>

        <name>yarn.nodemanager.aux-services</name>

            <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>l-qta3.sp.beta.cn0:8032</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>l-qta3.sp.beta.cn0:8030</value>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>l-qta3.sp.beta.cn0:8035</value>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>l-qta3.sp.beta.cn0:8033</value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>l-qta3.sp.beta.cn0:8088</value>

    </property>

</configuration>

　　5.8 配置slaves, 这里配置的就是DataNode,NodeManager,Worker的机器。

　　　　l-qta3.sp.beta.cn0

　　　　l-bgautotest2.sp.beta.cn0

　　5.9 scp到所有salve机器相同目录下

　　　　scp -r /home/q/hadoop-2.6.5 xx@slave[1-2]:/home/q/

　6 启动hadoop 集群

　　6.1 格式化NameNode

　　　　在NameNode执行以下操作

cd  /home/q/hadoop-2.6./bin

sudo bin/hadoop namenode –format

　　6.2 启动hadoop集群

方式1：
sbin/start-dfs.sh                              #启动HDFS

sbin/start-yarn.sh                             #启动资源管理器
方式2：
sbin/start-all.sh　　　　　　　　　　　　　　　　　
注意： 在启动过程中，启动脚本会依次ssh方式登陆各台机器，所以即使是启动本机的服务也会ssh,这时候 本机也要做免密登陆，否则NameNode会起不来。

　　6.3 验证集群是否启动

在NameNode上执行 jps
返回如下：
6996 ResourceManager
6611 NameNode
6412 Jps
在DataNode上执行 jps
返回如下：
22285 NodeManager
22151 DataNode

　　说明已经启动成功。进入Hadoop的Web管理页面：http://l-qta3.sp.beta.cn0:50070/

7. 安装spark

　　首先到spark官网下载和你安装的hadoop 版本匹配的spark 版本。http://spark.apache.org/downloads.html

　　7.1 解压缩 spark-2.0.2-bin-hadoop2.6.tgz

sudo tar -zxvf spark-2.0.-bin-hadoop2..tgz -C /home/q/

　　7.2 配置spark-env.sh

cd /home/q/spark-2.0.-bin-hadoop2./conf

cp spark-env.sh.template spark-env.sh

sudo vi spark-env.sh
export JAVA_HOME=/home/q/java/default

export HADOOP_HOME=/home/q/hadoop-2.6.5
export HADOOP_CONF_DIR=/home/q/hadoop-2.6.5/etc/hadoop/
export SPARK_LOCAL_DIRS=/home/q/spark-2.0.2-bin-hadoop2.6
export SPARK_CLASSPATH=/home/q/spark-2.0.2-bin-hadoop2.6/bin
export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/q/hadoop-2.6.5/share/hadoop/mapreduce/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar
export HIVE_CONF_DIR=/home/q/apache-hive-2.1.1-bin/conf

　　7.3 配置salves

vi slaves

l-bgautotest2.sp.beta.cn0

l-querydiff1.sp.beta.cn

　　7.4 将spark的安装文件scp到slaves的相同目录下

scp -r /home/q/spark-2.0.-bin-hadoop2. xx@slaves[-]:/home/q/

　　7.5 启动spark 集群

sbin/start-all.sh

　　7.6 验证是否启动spark集群

master 机器上执行  jps

返回中有：

 Master

slave 机器上执行 jps:

返回中有：

 Worker
说明启动成功。

进入Spark的Web管理页面：http://l-qta3.sp.cn0:8080 .

hadoop - spark on yarn 集群搭建的更多相关文章

Spark on Yarn集群搭建
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...
Spark高可用集群搭建
Spark高可用集群搭建 node1 node2 node3 1.node1修改spark-env.sh,注释掉hadoop(就不用开启Hadoop集群了),添加如下语句 export ...
Hadoop HA高可用集群搭建（Hadoop+Zookeeper+HBase）
声明:作者原创,转载注明出处. 作者:帅气陈吃苹果一.服务器环境主机名 IP 用户名密码安装目录 master188 192.168.29.188 hadoop hadoop /home/ha ...
Spark on Yarn 集群运行要点
实验版本:spark-1.6.0-bin-hadoop2.6 本次实验主要是想在已有的Hadoop集群上使用Spark,无需过多配置 1.下载&解压到一台使用spark的机器上即可 2.修改配 ...
Ubuntu 12.04下Hadoop 2.2.0 集群搭建（原创）
现在大家可以跟我一起来实现Ubuntu 12.04下Hadoop 2.2.0 集群搭建,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机 ...
一文读懂spark yarn集群搭建
文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...
spark高可用集群搭建及运行测试
文中的所有操作都是在之前的文章spark集群的搭建基础上建立的,重复操作已经简写: 之前的配置中使用了master01.slave01.slave02.slave03: 本篇文章还要添加master0 ...
[spark]-Spark2.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的.我们可以了解到每个参数配置的作用是什么.这里将详细介绍Spark集群搭建以及xml参 ...
spark完全分布式集群搭建
最近学习Spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧 spark开发环境的介绍资料很多,大同小异,很多不能一次配置成功,我以自己的实际操作过程为准,详细记录下来. 1.基本运行 ...

随机推荐

说说那些经典的web前端面试题
阅读目录 JavaScript部分 JQurey部分 HTML/CSS部分正则表达式开发及性能优化部分本篇收录了一些面试中经常会遇到的经典面试题以及自己面试过程中遇到的一些问题,并且都给出了我在 ...
Zabbix实战-简易教程--正则（Regxp）
一.正则表达式(Regx) 1.概述正则表达式概念就不解释了.请参考:https://en.wikipedia.org/wiki/Regular_expression#POSIX_extended ...
Zabbix实战-简易教程--通过公众平台企业号发送短信
一.注册企业号[体验号] 打开页面 http://qydev.weixin.qq.com/try?t=experience (2016年注册的时候的连接)现在可能变了.进行注册操作,默认有90天的 ...
WPF: WpfWindowToolkit 一个窗口操作库的介绍
在 XAML 应用的开发过程中,使用MVVM 框架能够极大地提高软件的可测试性.可维护性.MVVM的核心思想是关注点分离,使得业务逻辑从 View 中分离出来到 ViewModel 以及 Model ...
在Java Web项目中添加定时任务
在Java Web程序中加入定时任务,这里介绍两种方式:1.使用监听器注入:2.使用Spring注解@Scheduled注入. 推荐使用第二种形式. 一.使用监听器注入 ①:创建监听器类: impor ...
c/s与b/s 动态网站与静态网站（网站编码统一“UTF-8”）
1.c/s和b/s 第一张图是b/s 可以随时随地的浏览 (在服务器增加网页就能增加功能,只要改变网页就能使用户同步更新,共享性也强,开发也简单,在广域网和局域网都能建造b/s结构,然后通过int ...
CTF---密码学入门第三题奇怪的短信
奇怪的短信分值:10 来源: Ayn 难度:易参与人数:5117人 Get Flag:2623人答题人数:2858人解题通过率:92% 收到一条奇怪的短信: 335321414374744361 ...
喵哈哈村的魔法考试 Round #1 (Div.2) 题解&源码(A.水+暴力，B.dp+栈)
A.喵哈哈村的魔法石发布时间: 2017年2月21日 20:05 最后更新: 2017年2月21日 20:06 时间限制: 1000ms 内存限制: 128M 描述传说喵哈哈村有三种神 ...
[bzoj1369] [Baltic2003]Gem
结论题...一棵树里用到的颜色数不超过logn.. f[i][j]表示以i为根的子树里,i的颜色是j的方案数. g[i][j]表示max{f[i][k]},(k!=j #include<cstd ...
将本地的项目导入到github仓库总结lxw
关键步骤: 第一:git clone https://github.com/lxw18231857001/demo-.git #把github上面的仓库克隆到本地本地项目文件夹下 ...

hadoop - spark on yarn 集群搭建

hadoop - spark on yarn 集群搭建的更多相关文章

随机推荐

热门专题