hadoop多机安装YARN

hadoop伪分布安装称为测试环境安装，多机分布称为生成环境安装。以下安装没有进行HA(热备)和Federation(联邦)。除非是性能需要，否则没必要安装Federation，HA可以一试，涉及到Zookeeper自动切换。

准备工作

1) linux优化

①安装虚拟机linux系统，采用1.2 中的CentOS调优所有步骤，关闭防火墙；②设置网络为桥接模式(编辑虚拟机设置—>网络适配器)，查看自动分配ip或手动配置ip；③等JDK安装的JAVA_HOME(见1.3.1)和HADOOP_HOME(见2.1.6(8))配置好后，直接复制虚拟机，将whaozl001的虚拟机系统复制成3个文件夹作为DataNode的数据节点的linux主机，网卡要重新删除和编辑，见2.1.7(3)；④配置NameNode节点的主机whaozl001到其他主机ssh免密码登录，见2.1.7；⑤注意：在配置过程中所有的property中的name和value值都不能存在空格、配置中的删除线部分表示可不添加进去。

2) 配置节点

对所有Node，配置vim /etc/hosts添加10.30.30.1 whaozl001等ip映射；

10.30.30.1 whaozl001

10.30.30.5 whaozl005

10.30.30.6 whaozl006

10.30.30.7 whaozl007

10.30.30.8 whaozl008

这里配置4个DataNode，1个NameNode，给每个节点主机修改主机名(虚拟机名称、ip映射名、linux主机名)：

	主机名	ip地址(内网)	linux用户名	密码	充当角色
NameNode	whaozl001	10.30.30.1	haozhulin	123456	nn/snn/rm
DataNode	whaozl005	10.30.30.5	haozhulin	123456	dn/nm
DataNode	whaozl006	10.30.30.6	haozhulin	123456	dn/nm
DataNode	whaozl007	10.30.30.7	haozhulin	123456	dn/nm
DataNode	whaozl008	10.30.30.8	haozhulin	123456	dn/nm

虚拟机名称就是虚拟机文件夹名。用户均为haozhulin，其在linux的/home目录下有一个haozhulin文件夹(用户文件夹)。在cluster中充当的角色(namenode, secondary namenode, datanode , resourcemanager, nodemanager)。

解压

将安装包hadoop-2.2.0.tar.gz存放到/home/haozhulin/install/目录下，并解压

先让其有执行权限，然后直接./就可以解压

chmod
+x hadoop-2.2.0.tar.gz

./hadoop-2.2.0.tar.gz

配置之前，在whaozl001主机的/home/haozhulin/install/hadoop-2.2.0/下建立三个文件夹：~/dfs/name、~/dfs/data、~/temp;

接下来修改/home/haozhulin/install/hadoop-2.2.0/etc/hadoop/下的7个文件。

hadoop-env.sh

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

slaves

yarn-env.sh
修改hadoop-env.sh

配置hadoop的jdk版本环境

cd /home/haozhulin/install/hadoop-2.2.0/etc/hadoop/

vim hadoop-env.sh

hadoop-env.sh为hadoop环境变量，依赖JDK，进行如下修改

#第27行

export JAVA_HOME=/home/haozhulin/install/java/jdk1.7.0_09
修改core-site.xml

在其<configuration></ configuration >中插入：



<property>

    

    <name>fs.defaultFS</name>

    <value>hdfs://whaozl001:9000</value>

</property>



<property>

    <name>hadoop.tmp.dir</name>

    <value>file:///home/haozhulin/install/hadoop-2.2.0/tmp</value>

</property>



<property>

    <name>io.file.buffer.size</name>

    <value>131072</value>

</property>

<property>

    <name>hadoop.proxyuser.haozhulin.hosts</name>

    <value>*</value>

</property>

<property>

    <name>hadoop.proxyuser.haozhulin.groups</name>

    <value>*</value>

</property>
修改hdfs-site.xml

在其<configuration></ configuration >中插入：



<property>

    <name>dfs.namenode.secondary.http-address</name>

    <value> whaozl001:9001</value>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>file:///home/haozhulin/install/hadoop-2.2.0/dfs/name</value>

</property>

<property>

    <name>dfs.datanode.data.dir </name>

    <value>file:///home/haozhulin/install/hadoop-2.2.0/dfs/data</value>

</property>



<property>

    <name>dfs.replication</name>

    <value>2</value>

</property>

<property>

    <name>dfs.webhdfs.enabled</name>

    <value>true</value>

</property>
修改mapred-site.xml

从template命名mapred-site.xml后<configuration></configuration>中插入：



<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>whaozl001:10020</value>

</property>

<property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value> whaozl001:19888</value>

</property>
修改yarn-site.xml

在其<configuration></ configuration >中插入：



<property>

    <name>yarn.resourcemanager.hostname</name>

    <value>whaozl001</value>

</property>



<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

    <value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

    <name>yarn.resourcemanager.address</name>

    <value>whaozl001:8032</value>

</property>

<property>

    <name>yarn.resourcemanager.scheduler.address</name>

    <value> whaozl001:8030</value>

</property>

<property>

    <name>yarn.resourcemanager.resource-tracker.address</name>

    <value> whaozl001:8031</value>

</property>

<property>

    <name>yarn.resourcemanager.admin.address</name>

    <value> whaozl001:8033</value>

</property>

<property>

    <name>yarn.resourcemanager.webapp.address</name>

    <value> whaozl001:8088</value>

</property>
修改slaves

#定位到/home/haozhulin/install/hadoop-2.2.0/etc/hadoop/slaves文件

vim etc/hadoop/slaves

#由于是单机伪分布，所以DataNode就只有localhost

#不需要修改，也可以改为127.0.0.1，都是指本机

#slaves文件中记录所有的slave节点,写入以下内容

whaozl005

whaozl006

whaozl007

whaozl008
修改yarn-en.sh

同修改hadoop-env.sh，修改里面的JAVA_HOME值。
将配置复制到其他节点

这里可以写一个shell脚本进行操作(有大量节点时比较方便)。

scp –r /home/haozhulin/install/hadoop-2.2.0 haozhulin@whaozl005:~/

scp –r /home/haozhulin/install/hadoop-2.2.0 haozhulin@whaozl006:~/

scp –r /home/haozhulin/install/hadoop-2.2.0 haozhulin@whaozl007:~/

scp –r /home/haozhulin/install/hadoop-2.2.0 haozhulin@whaozl008:~/

scp –r 表示递归到目录和目录中文件远程复制到目标主机，~表示当前用户目录(用户目录就是保存在/home下)。
格式化namenode

#进入hadoop位置/home/haozhulin/install/hadoop-2.2.0

cd /home/haozhulin/install/hadoop-2.2.0

#格式化namenode

./bin/hdfs namenode –format
启动hadoop

#进入hadoop位置/home/haozhulin/install/hadoop-2.2.0

cd /home/haozhulin/install/hadoop-2.2.0

#启动hdfs

./sbin/start-dfs.sh

#jps可查看进程

#此时在whaozl001上面运行的进程有namenode secondarynamenode

#whaozl005/whaozl006/whaozl007/whaozl008上运行的进程有datanode

#启动yarn

./sbin/start-yarn.sh

#此时在whaozl001上面有namenode secondarynamenode resourcemanager

#whaozl005/whaozl006/whaozl007/whaozl008有：datanode nodemanaget

了解hadoop运行情况：

#查看集群状态

./bin/hdfs dfsadmin –report

#查看文件块组成

./bin/hdfsfsck / -files –blocks

#查看HDFS:

http://10.30.30.1:50070

#查看RM

http://10.30.30.1:8088
测试

#先在hdfs上创建一个文件夹

./bin/hdfs dfs –mkdir /input

#测试案例

./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarrandomwriter /input