Hadoop的集群部署和单节点部署类似,配置文件不同,另外需要修改网络方面的配置

  首先,准备3台虚拟机,系统为CentOS 6.6,其中一台为namenode 剩余两台为 datanode;

  修改主机名主节点为:hadoopha,数据节点主机名分别为hadoop1、hadoop2,具体修改方法点击这里查看

  本例中这3台虚拟机处于同一个局域网,网络连接设置为桥接,ip地址分别为是hadoopha为:192.168.1.42,hadoop1为:192.168.1.78、hadoop2为:192.168.1.44,实际中可以设置静态ip为连续的

  然后修改hosts网络指向,用vim /etc/hosts打开文件,后面添加3行记录:

  192.168.1.42 hadoopha

  192.168.1.78 hadoop1

  192.168.1.44 hadoop2

  然后保存退出

  

  上面那些localhost指向不用改,新添加3行即可,这三台主机都要修改hosts文件保持一致

  以上是主机之间网络通信的基础,接下来在hadoopha上单独配置hadoop环境,hadoop1和hadoop2不用安装hadoop,只有jdk即可

  同样把hadoop解压到指定目录,配置一下HADOOP_HOME到环境变量中,然后进入hadoop安装目录,修改配置

  执行vim etc/hadoop/hadoop-env.sh

  把JAVA_HOME前面的注释去掉,值改成jdk的安装目录,并保存

  

  然后执行vim etc/hadoop/core-site.xml,在<configuration></configuration>之间添加如下配置:

     <property>
<name>fs.defaultFS</name>
<value>hdfs://hadoopha</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/usr/hadoop/name</value>
</property>

  执行vim etc/hadoop/hdfs-site.xml,同样位置添加如下配置:

     <property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/hadoop/hdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/hadoop/hdfs/data</value>
</property>
<property>
<name>dfs.nameservices</name>
<value>hadoopha</value>
</property>

  第一个配置项是datanode的节点数,这里是2个,就算这里写3也不起什么作用,因为不能超过实际的最大节点数,其中的存放目录可以自己定义

  执行vim etc/hadoop/mapred-site.xml,同样位置添加如下配置:

     <property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

  执行vim etc/hadoop/yarn-site.xml,添加如下配置:

     <property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoopha</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoopha:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoopha:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoopha:8031</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoopha:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoopha:8088</value>
</property>

  编辑slaves文件,执行etc/hadoop/slaves,之前默认只有一行内容localhost,把之前的删除添加下面配置:

  hadoop1

  hadoop2

  到这里文件就配置完了,

  然后退到上一层目录,把配置好的hadoop目录发送到hadoop1和hadoop2中

$ scp -r hadoop-2.6./ hadoop1:/usr/hadoop/
$ scp -r hadoop-2.6./ hadoop2:/usr/hadoop/

  这样三个主机的hadoop文件就实现了同步,然后格式化namenode节点

bin/hadoop namenode -format

  只对主节点hadoopha进行格式化即可,格式化之后启动hadoop

sbin/start-all.sh

  等待hadoop集群运行起来,然后用jps命令分别查看3个主机的hadoop进程

  hadoopha运行NameNode:

  

  hadoop1和hadoop2运行DataNode:

  

  这时候hadoop集群就启动成功了,然后打开浏览器通过web访问主节点可以管理集群

  HDFS管理:http://192.168.1.42:50070/

  

  可以看到详细的参数

  Map/Reduce管理:http://192.168.1.42:8088/

  可以看到详细的作业情况,和具体哪台机器的作业的情况

  通过命令行:bin/hdfs dfsadmin -report可以查看集群的运行状态

  需要注意:

  1、在hadoop2.x系列版本中,hdfs默认文件直接存放在根目录下,不在和1.x一样存放在/user/root/下了

  2、执行hdfs操作文件系统所有的命令时,比如bin/hdfs dfs -ls /会报错:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

   

  虽然不影响使用,原因是从apache官网下载的hadoop-2.6.0.tar.gz是在32位机器上编译的,而集群机器是64位的,所以加载.so文件时出错,但是不影响使用,解决办法是下载64位编译包,解压到hadoop安装目录下lib/native下更新文件即可

  

  因为是./所以直接解压到本目录下,不用进行其他任何操作就可以了,下载链接:http://dl.bintray.com/sequenceiq/sequenceiq-bin/hadoop-native-64-2.6.0.tar

  接下来使用WordCount例子来测试集群的运行:

  首先进入hadoop安装目录,执行下面命令测试:

$ mkdir input
$ echo "Hello world bye jj" >> file1
$ echo "Hello Hadoop bye hadoop" >> file2
$ bin/hdfs dfs -mkdir /input
$ bin/hdfs dfs -put input/* /input

  这样文件就上传到了HDFS文件系统中,执行下面命令开始运行作业

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6..jar wordcount /input /output

  

  然后等待作业执行完毕,完毕之后可以使用命令bin/hdfs dfs -ls /output/查看是否生成结果文件,使用cat查看文件内容即可

bin/hdfs dfs -cat /output/part-r-

  

  可以看到,结果正确的输出了,到这里基本的hadoop集群就部署完成了

  

Hadoop 2.6.0 集群部署的更多相关文章

  1. hadoop 2.2.0 集群部署 坑

    注意fs.defaultFS为2..0新的变量,代替旧的:fs.default.name hadoop 2.2.0 集群启动命令:bin/hdfs namenode -formatsbin/start ...

  2. redis3.0集群部署和测试

    redis3.0集群部署和测试 环境介绍 两台Centos7的虚拟机模拟6个节点,A台3个master节点,B台3个slave节点A地址:172.16.81.140B地址:172.16.81.141r ...

  3. hadoop 2.2.0集群安装详细步骤(简单配置,无HA)

    安装环境操作系统:CentOS 6.5 i586(32位)java环境:JDK 1.7.0.51hadoop版本:社区版本2.2.0,hadoop-2.2.0.tar.gz 安装准备设置集群的host ...

  4. Ubuntu 12.04下Hadoop 2.2.0 集群搭建(原创)

    现在大家可以跟我一起来实现Ubuntu 12.04下Hadoop 2.2.0 集群搭建,在这里我使用了两台服务器,一台作为master即namenode主机,另一台作为slave即datanode主机 ...

  5. hadoop 2.2.0集群安装

    相关阅读: hbase 0.98.1集群安装 本文将基于hadoop 2.2.0解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net ...

  6. Redis 3.0.0 集群部署

    简述: 1.0.1:redis cluster的现状 目前redis支持的cluster特性 1):节点自动发现 2):slave->master 选举,集群容错 3):Hot reshardi ...

  7. Hadoop 2.2.0集群搭建

    一.环境说明 1.虚拟机平台:VMware10 2.Linux版本号:ubuntu-12.04.3-desktop-i386 3.JDK:jdk1.7.0_51 4.Hadoop版本号:2.2.0 5 ...

  8. Hadoop-2.2.0集群部署时live nodes数目不对的问题

    关于防火墙,hadoop本身配置都确定没任何问题,集群启动不报错,但打开50070页面,始终live nodes数目不对,于是我尝试/etc/hosts文件配置是否存在逻辑的错误: 127.0.0.1 ...

  9. k8s-1.15.0集群部署+dashboard

    环境:外网环境硬件master-centos7.4  2核4G node1-centos7.4     2核4Gnode2-centos7.4     2核4G软件:三台服务器 :docker-19. ...

随机推荐

  1. myeclipse-建立webservice服务端和客户端

    一.建立webservice服务端: 1.新建一个web service project,名称为webservice_server截图如下,点击finish. 2.选择工程,点击右键,选择new-&g ...

  2. du 命令

    Linux du命令也是查看使用空间的,但是与df命令不同的是Linux du命令是对文件和目录磁盘使用的空间的查看,还是和df命令有一些区别的. 1.命令格式: du [选项][文件] 2.命令功能 ...

  3. 【前端】Sublime text3 插件HTML/CSS/JS prettify 格式化代码

    1.首先安装插件 菜单的preference->packages control,然后输入install .. 回车,再输入HTML/CSS/JS prettify 再回车,重启后就可以了. 2 ...

  4. myeclipse 配置weblogic

    1.打开myeclipse,选择Window -> Preferences--->MyEclipse--->servers 2.点击servers---->weblogic-- ...

  5. 洛谷P1508 Likecloud-吃、吃、吃

    题目背景 问世间,青春期为何物? 答曰:“甲亢,甲亢,再甲亢:挨饿,挨饿,再挨饿!” 题目描述 正处在某一特定时期之中的李大水牛由于消化系统比较发达,最近一直处在饥饿的状态中.某日上课,正当他饿得头昏 ...

  6. 802.11协议帧格式、Wi-Fi连接交互过程、无线破解入门研究

    相关学习资料 Linux黑客大曝光: 第8章 无线网络 无线网络安全攻防实战进阶 无线网络安全 黑客大曝光 第2版 http://zh.wikipedia.org/wiki/IEEE_802.11 h ...

  7. foeach集合遍历

    package number; public class Number { public static void main(String[] args) { int[] arr={5,2,1,0,3, ...

  8. Codeforces 650B Image Preview

    time limit per test 1 second memory limit per test 256 megabytes input standard input output standar ...

  9. MS-sqlserver数据库2008如何转换成2000

    http://bbs.csdn.net/topics/390438560?page=1#post-394316973 MS-sqlserver数据库2008如何转换成2000 回你这个贴等于我写个博客 ...

  10. memcached 缓存服务器

    Memcached 缓存服务器 Memcached 是高性能的分布式内存缓存服务器. 一般的使用目的是,通过缓存数据库查询结果,减少数据库访问次数,以提高动态web应用的速度.提高可扩展性. 主要特点 ...