前言

　　前面只是大概介绍了一下Hadoop，现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享，先要看一下效果吧！

一、Hadoop的三种运行模式（启动模式）

1.1、单机模式（独立模式）（Local或Standalone Mode）

　　-默认情况下，Hadoop即处于该模式，用于开发和调式。

　　-不对配置文件进行修改。
　　-使用本地文件系统，而不是分布式文件系统。
　　-Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程，Map()和Reduce()任务作为同一个进程的不同部分来执行的。
　　-用于对MapReduce程序的逻辑进行调试，确保程序的正确。

1.2、伪分布式模式（Pseudo-Distrubuted Mode）

　　-Hadoop的守护进程运行在本机机器，模拟一个小规模的集群　

　　-在一台主机模拟多主机。
　　-Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行，是相互独立的Java进程。
　　-在这种模式下，Hadoop使用的是分布式文件系统，各个作业也是由JobTraker服务，来管理的独立进程。在单机模式之上增加了代码调试功能，允许检查内存使用情况，HDFS输入输出，

　　　　以及其他的守护进程交互。类似于完全分布式模式，因此，这种模式常用来开发测试Hadoop程序的执行是否正确。
　　-修改3个配置文件：core-site.xml（Hadoop集群的特性，作用于全部进程及客户端）、hdfs-site.xml（配置HDFS集群的工作属性）、mapred-site.xml（配置MapReduce集群的属性）
　　-格式化文件系统

1.3、全分布式集群模式（Full-Distributed Mode）

　　-Hadoop的守护进程运行在一个集群上　

　　-Hadoop的守护进程运行在由多台主机搭建的集群上，是真正的生产环境。
　　-在所有的主机上安装JDK和Hadoop，组成相互连通的网络。
　　-在主机间设置SSH免密码登录，把各从节点生成的公钥添加到主节点的信任列表。
　　-修改3个配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml，指定NameNode和JobTraker的位置和端口，设置文件的副本等参数
　　-格式化文件系统

二、搭建伪分布式集群的前提条件

环境：在ubuntu17.04

　　　　jdk1.8.0_131

　　　　hadoop 2.8.1

2.1、能够正常运行的Ubuntu操作系统

　　在Ubuntu下，软件安装到/opt下，当前正在使用的用户，对于opt目录需要有读写权限：　

　　1）将opt的权限给为777（漏洞文件），不推荐在生产环境中使用。但是可以在学习和调试环境中使用。　　　　　

　　2）sudo

　　　　在启动Hadoop的各个守护进程的时候，需要使用sudo。
　　　　在管理Hadoop的时候，实际上由不同的用户启动不同集群的守护进程。
　　　　统一使用当前的用户管理所有集群。

　　3）该目录的所有者设置为当前用户

2.2、安装JDK，并配置环境变量

　　1）将jdk安装包放在家目录下

　　2）解压到opt目录下

　　　　sudo tar zxvf jdk-8u131-linux-x64.tar.gz -C /opt

　　　　此时在/opt目录下：会有一个jdk1.8.0_131

　　3）创建软链接

　　　　sudo ln -snf /opt/jdk1.8.0_131 /opt/jdk

　　　　注意：创建软连接的目的是为了，我们在做项目的时候，可能会用到不同的jdk版本，这是要换软件的话，只需要修改软链接就可以了。而不用修改配置文件。

　　4）配置环境变量　　　

　　　　局部环境变量：~/.bashrc
　　　　全局环境变量：/etc/profile
　　　　export JAVA_HOME=/opt/jdk
　　　　export JRE_HOME=$JAVA_HOME/jre
　　　　export CLASSPATH=.:$JAVA_HOME/lib
　　　　export PATH=$PATH:$JAVA_HOME/bin

　　　　source 相关文件（更新配置文件）

　　5）查看是否安装成功

　　　java、javac、java -version

三、搭建伪分布式集群

3.1、安装hadoop

　　1）解压hadoop安装包到opt目录下

　　　　sudo tar zxvf hadoop-2.8.1.tar.gz -C /opt

　　2）创建软链接

　　　　ln -snf /opt/hadoop-2.8.1 /opt/hadoop　　

　　3）配置环境变量　　

　　　　在/etc/profile文件中加入以下内容：
　　　　export HADOOP_HOME=/opt/hadoop
　　　　export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
　　　　source /etc/profile

　　4）使用hadoop version命令测试是否配置成功

3.2、配置hadoop

　　配置文件存放在/opt/hadoop/etc/hadoop中有n多个文件，暂时我们只需要修改的只有5个

　　1）hadoop-env.sh

　　　　大约在25行左右　　　

　　export JAVA_HOME=${JAVA_HOME}改成export JAVA_HOME=/opt/jdk

　　　　注意：在配置文件中有提示我们怎么设置，我们一般不删除，二回选择注释它的提示。

　　2）core-site.xml　

　　　　　　<configuration>

                <property>

                    <name>fs.defaultFS</name>

                    <value>hdfs://1.0.0.5:9000</value>

                </property>

            </configuration>

　　分析：1.0.0.5是你主节点所在主机的ip，而9000为端口

　　3）hdfs-site.xml　　　

            <configuration>

                <property>

                    <name>dfs.nameservices</name>

                    <value>hadoop-cluster</value>

                </property>

                <property>

                    <name>dfs.namenode.name.dir</name>

                    <value>file:///data/hadoop/hdfs/nn</value>

                </property>

                <property>

                    <name>dfs.namenode.ch

                    eckpoint.dir</name>

                    <value>file:///data/hadoop/hdfs/snn</value>

                </property>

                <property>

                    <name>dfs.namenode.checkpoint.edits.dir</name>

                    <value>file:///data/hadoop/hdfs/snn</value>

                </property>

                <property>

                    <name>dfs.datanode.data.dir</name>

                    <value>file:///data/hadoop/hdfs/dn</value>

                </property>

            </configuration>

　　4）mapred-site.xml

　　　　在hadoop的相关目录中没有此文件，但是有一个mapred-site.xml.template文件，将该文件复制一份为mapred-site.xml

　　　　cp mapred-site.xml.template mapred-site.xml

            <configuration>

                <property>

                    <name>mapreduce.framework.name</name>

                    <value>yarn</value>

                </property>

            </configuration>

　　5）yarn-site.xml

            <configuration>

                <!-- 指定ResourceManager的地址-->

                <property>

                    <name>yarn.resourcemanager.hostname</name>

                    <value>1.0.0.5</value>

                </property>

                <!-- 指定reducer获取数据的方式-->

                <property>

                    <name>yarn.nodemanager.aux-services</name>

                    <value>mapreduce_shuffle</value>

                </property>

                <property>

                    <name>yarn.nodemanager.local-dirs</name>

                    <value>file:///data/hadoop/yarn/nm</value>

                </property>

            </configuration>

　　7）创建相关目录

        sudo mkdir -p /data/hadoop/hdfs/nn

        sudo mkdir -p /data/hadoop/hdfs/dn

        sudo mkdir -p /data/hadoop/hdfs/snn

        sudo mkdir -p /data/hadoop/yarn/nm

　　　注意：　　

　　　　如果使用sudo启动hadoop的相关进程，这几目录的权限可以不用管。
　　　　如果是使用当前的用户启动相关进程，对于opt目录，当前用户得有读写权限，对于/data目录也需要读写权限。

　　　遇到问题：

　　　　　　笔者就是在这个目录权限的问题吃el很大得亏。首先为了不使用sudo我将/data目录的权限修改为777，然后进行

　　　　　　HDFS集群格式化的时候，出现：

　　　　　　这时我在想为什么呢？原来我只是给data目录设置了读写权限，但是没有给它的子目录设置读写权限。所以：　　　　

　　　　　　　　chmod -R  /data    递归设置权限

　　8）对HDFS集群进行格式化，HDFS集群是用来存储数据的。　　

　　　　hdfs namenode -format

3.3、启动集群

　　1）启动HDFS集群　　　　　　

　　　　hadoop-daemon.sh start namenode 启动主节点
　　　　hadoop-daemon.sh start datanode 启动从节点

　　2）启动YARN集群

　　　　yarn-daemon.sh start resourcemanager
　　　　yarn-daemon.sh start nodemanager

　　3）启动作业历史服务器

　　　　mr-jobhistory-daemon.sh start historyserver

　　4）jps命令查看是否启动成功

　　5）HDFS和YARN集群都有相对应的WEB监控页面

　　　　HDFS：http://ip:50070

　　　　YARN：http://ip:8088

　　6）HDFS集群的简单操作命令

　　　　hdfs dfs -ls /

　　　　hdfs dfs -mkdir -p /user/zyh

　　7） YARN集群的操作----提交任务/作业

　　　　计算PI值的作业：
　　　　yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.1.jar pi 4 100

四、一个问题

我之前没有注意发现我的yarn的从节点没有启动起来，在执行计算PI值的时候没有成功才看到：

查看日志发现是配置文件：

　　在hdfs-site-web.xml中：

　　查看http://1.0.0.5:50070可以查看从节点是否启动：

　　在执行上面使用yarn集群来计算pi值得命令：

　　查看http://1.0.0.5:8088可以看出计算pi值得任务正在执行：

　　最后成功：

　　　　　这里就截图了，电脑卡住了，上图中在web页面可以查看到任务执行成功，终端中会显示执行结果！　　　　　

喜欢就点“推荐”哦！

hadoop（二）搭建伪分布式集群的更多相关文章

hadoop搭建伪分布式集群（centos7+hadoop-3.1.0/2.7.7）
目录: Hadoop三种安装模式搭建伪分布式集群准备条件第一部分安装前部署 1.查看虚拟机版本2.查看IP地址3.修改主机名为hadoop4.修改 /etc/hosts5.关闭防火墙6.关闭SE ...
超详细！CentOS 7 + Hadoop3.0.0 搭建伪分布式集群
超详细!CentOS 7 + Hadoop3.0.0 搭建伪分布式集群 ps:本文的步骤已自实现过一遍,在正文部分避开了旧版教程在新版使用导致出错的内容,因此版本一致的情况下照搬执行基本不会有大错误. ...
centos7搭建伪分布式集群
centos7搭建伪分布式集群需要 centos7虚拟机一台: jdk-linux安装包一个 hadoop-2.x安装包1个(推荐2.7.x) 一.设置虚拟机网络为静态IP(最好设成静态,为之后编程 ...
Hadoop伪分布式集群
一.HDFS伪分布式环境搭建 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时, ...
Redis集群搭建，伪分布式集群，即一台服务器6个redis节点
Redis集群搭建,伪分布式集群,即一台服务器6个redis节点一.Redis Cluster(Redis集群)简介集群搭建需要的环境二.搭建集群 2.1Redis的安装 2.2搭建6台redi ...
基于Hadoop伪分布式集群搭建Spark
一.前置安装 1)JDK 2)Hadoop伪分布式集群二.Scala安装 1)解压Scala安装包 2)环境变量 SCALA_HOME = C:\ProgramData\scala-2.10.6 P ...
hadoop学习笔记（五）hadoop伪分布式集群的搭建
本文原创,如需转载,请注明作者和原文链接 1.集群搭建的前期准备见搭建分布式hadoop环境的前期准备---需要检查的几个点 2.解压tar.gz包 [root@node01 ~]# ...
Hadoop学习笔记（一）：ubuntu虚拟机下的hadoop伪分布式集群搭建
hadoop百度百科:https://baike.baidu.com/item/Hadoop/3526507?fr=aladdin hadoop官网:http://hadoop.apache.org/ ...
Hadoop伪分布式集群环境搭建
本教程讲述在单机环境下搭建Hadoop伪分布式集群环境,帮助初学者方便学习Hadoop相关知识. 首先安装Hadoop之前需要准备安装环境. 安装Centos6.5(64位).(操作系统再次不做过多描 ...

随机推荐

从网络获取json数据，使用imageloader获取网络图片资源并显示在ListView上
http://www.93.gov.cn/93app/data.do?channelId=0&startNum=0 这是一个接口,通过这个接口来获取数据并解析大体上就是把解析的数据还有图片u ...
结对编程1-四则运算（基于GUI）
林晓芳201421123092.陈惠201421123096 coding 地址:https://git.coding.net/lianlian/92.96.1.git 一.题目描述我们在个人作业1 ...
团队项目beta 汇总
一.冲刺计划安排 http://www.cnblogs.com/KKlist/p/6864124.html 二.七天的敏捷冲刺第一天(2017.05.19) http://www.cnblogs.c ...
201521123009 《Java程序设计》第10周学习总结
1. 本周学习总结 2. 书面作业本次PTA作业题集异常.多线程 Q1:finally 题目4-2 1.1 截图你的提交结果(出现学号) 1.2 4-2中finally中捕获异常需要注意什么? tr ...
java：java构造器和java方法的区别
构造函数(构造器)是一种特殊的函数.其主要功能是用来在创建对象时初始化对象, 即为对象成员变量赋初始值,总与new运算符一起使用在创建对象的语句中.构造函数与类名相同,可重载多个不同的构造函数.在JA ...
命令导入导出oracle库
目前还是新手:所以记录下来最笨的方式,留用一.从服务器先把库导出来 exp sys/mima@orcl file = "d:\pybghs.dmp" full=y 二.从服 ...
python之并发编程之多进程
一.共享数据进程间通信应该尽量避免使用本节所讲的共享数据方式 from multiprocessing import Manager,Process,Lock def work(dic,mutex) ...
Maven第三篇【Maven术语、pom.xml介绍】
maven术语在我们上一篇中已经知道了在Intellij idea下是如何使用Maven的了,创建出来的目录结构是这样子的: 上面的目录结构就是Maven所谓的"约定",我们使用 ...
xml是什么，为什么要用xml
XML概念众所周知,xml常用语数据存储和传输,文件后缀为 .xml: 它是可扩展标记语言(Extensible Markup Language,简称XML),是一种标记语言. 标记,指计算机所能理 ...
Hibernate4+EhCache配置二级缓存
本文主要讲一讲Hibernate+EhCache配置二级缓存的基本使用方法 (有关EhCache的基础介绍可参见:http://sjsky.iteye.com/blog/1288257 ) Cache ...

hadoop（二）搭建伪分布式集群