Hadoop 2.7.1 (2015-7-6更新)，Hadoop的环境配置不是特别的复杂，可是确实有非常多细节须要注意。不然会造成很多配置错误的情况。尽量保证一次配置正确防止重复改动。

网上教程有非常多关于Hadoop配置的，可是每个教程都相应了一个版本号信息。有一些教程也存在非常大的问题，配置环境，系统环境都没说清楚。在此我将记录下来从零搭建Hadoop2.7.1的过程，以及搭建过程中所遇到的一些问题。

一操作环境说明

1.1 ：操作系统： window8.1

1.2 ：虚拟机版本号：VMware12

二材料准备

2.1 ubuntu-14.10-desktop-amd64.iso (Ubuntu 光盘映像)

2.2 jdk-8u65-linux-x64.gz (Java 环境包)

2.3 hadoop-2.7.1.tar.gz (Hadoop 环境包)

三搭建開始

3.1 Vmware 创建虚拟机

依据Hadoop的调度规则。我们将使用VMware 12 载入 ubuntu….iso来创建三个Ubuntu 虚拟机。创建用典型安装就可以，下面是虚拟机的一些信息

虚拟机1：Master Ubuntu 14.10 64bit

虚拟机2：Slave1 Ubuntu 14.10 64bit

虚拟机3：Slave2 Ubuntu 14.10 64bit

下面操作将须要在全部配置机器上进行

3.2 解压文件

将jdk-8u65-linux-x64.gz 和hadoop-2.7.1.tar.gz 复制到3台虚拟机的一个目录中。

我这里复制到了Home/Download目录中, 然后右键选择 Extract Here. (当然也可以zxvf)

3.3 配置JAVA

把jdk-8u65-linux-x64 重命名为jdk-8u65-linux-x64.tar.gz 并右键Extract Here，生成文件jdk 1.8.0_65

打开终端输入命令:

sudo mkdir /usr/lib/jvm

sudo cp -r Downloads/jdk1.8.0_65 /usr/lib/jvm/

加入环境变量

sudo gedit /etc/profile

在末尾加上四行：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_65

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

输如命令使环境生效

source /etc/profile

输如命令查看环境是否配置成功

java –version

出现如上信息说明配置成功

3.4 SSH 安装以及配置

更新apt (因为是新系统可能会花一些时间)

sudo apt-get update

安装ssh

sudo apt-get install openssh-server

已有ssh或者成功安装了的输入命令

ps -e | grep ssh

假设用的是和我同样的ubuntu版本号安装会遇到问题。安装过程中遇到404 Not Find（假设没有则跳过直接验证SSH）

下载sources.list 存入Home目录下输入命令覆盖原文件

sudo cp sources.list /etc/apt/sources.list

更行apt-get

sudo apt-get update

再次安装ssh

sudo apt-get install openssh-server

如遇到版本号问题则參考下面命令安装

sudo apt-get install openssh-client=1:6.6p1-2ubuntu1

验证SSH是否成功安装输入

ssh localhost

出现下面提示说明成功安装

生成密钥Pair

ssh-keygen –t rsa

输入后一直回车选择默认就可以

mater主机中输入命令复制一份公钥到home中

cp .ssh/id_rsa.pub ~/id_rsa_master.pub

把master的home目录下的id_rsa_master.pub拷到slave1,slave2的home下

slave1和 slave2的home目录下分别输入命令

cat id_rsa_master.pub >> .ssh/authorized_keys

至此实现了mater对slave1, slave2的无password登陆

下面配置将只在master主机上进行

3.5 配置 Hadoop

(为了配置方便，将解压缩好的hadoop-2.7.1目录复制到home根目录下面)

在hadoop-2.7.1目录下创建文件，输入

mkdir hadoop-2.7.1/tmp

mkdir hadoop-2.7.1/hdfs

mkdir hadoop-2.7.1/hdfs/name

mkdir hadoop-2.7.1/hdfs/data

输入命令查看ip地址

ifconfig -a

eg. 我所使用的IP地址

虚拟机1：Master   192.168.152.128

虚拟机2：Slave1   192.168.152.129

虚拟机3：Slave2   192.168.152.130

改动hosts

sudo gedit /etc/hosts

具体IP地址由上面给出，可依据自己的配置情况自行调整

为了方便改动hostname

sudo gedit /etc/hostname

master 的改为 master

slave1 的改为 slave1

slave2 的改为 slave2

改动环境变量

cd ~/hadoop-2.7.1/

（1）hadoop-env.sh

gedit etc/hadoop/hadoop-env.sh

找到JAVA_HOME=… 一行改动为JAVA HOME的路径

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_65

（2）core-site.xml

gedit etc/hadoop/core-site.xml

在configuration标签中加入

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://master:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/home/zhaoli/hadoop-2.7.1/tmp</value>

    </property>

（3）mapred-site.xml

创建并编辑

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

gedit etc/hadoop/mapred-site.xml

在configuration标签中加入

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://master:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>file:/home/zhaoli/hadoop-2.7.1/tmp</value>

    </property>

（4）hdfs-site.xml

gedit etc/hadoop/hdfs-site.xml

在configuration标签中加入

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>file:/home/zhaoli/hadoop-2.7.1/hdfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>file:/home/zhaoli/hadoop-2.7.1/hdfs/data</value>

    </property>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>master:9001</value>

    </property>

（5）yarn-site.xml

gedit etc/hadoop/yarn-site.xml

在configuration标签中加入

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

        <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

        <value>org.apache.hadoop.mapred.ShuffleHandler</value>

    </property>

    <property>

        <name>yarn.resourcemanager.address</name>

        <value>master:8032</value>

    </property>

    <property>

        <name>yarn.resourcemanager.scheduler.address</name>

        <value>master:8030</value>

    </property>

    <property>

        <name>yarn.resourcemanager.resource-tracker.address</name>

        <value>master:8031</value>

    </property>

    <property>

        <name>yarn.resourcemanager.admin.address</name>

        <value>master:8033</value>

    </property>

    <property>

        <name>yarn.resourcemanager.webapp.address</name>

        <value>master:8088</value>

    </property>

（6）slaves文件

gedit etc/hadoop/slaves

删除原有内容，依据配置改动，此处为

slave1

slave2

分发配置好的hadoop目录到slave1, slave2

前提是设置好ssh

scp -r hadoop-2.7.1 zhaoli@slave1:~/

scp -r hadoop-2.7.1 zhaoli@slave2:~/

格式化hdfs

进入hadoop home目录

bin/hdfs namenode-format

启动集群

sbin/start-all.sh

启动后分别在master, slave下输入jps查看进程

如上则说明启动成功

执行wordcount測试集群

进入hadoop home目录

在hdfs（分布式文件系统）中创建一个名为input的目录

bin/hadoop fs –mkdir /input

查看文件是否被创建

bin/hadoop fs –ls /

hadoop home 下创建一个inputfile 目录，并在inputfile里创建两个文件

in1.txt

Hello world hello hadoop

in2.txt

Hello Hadoop hello whatever

上传两个文件进input

bin/hadoop fs -put inputfiles/*.txt /input

查看输入文件是否传入

bin/hadoop fs -ls /input

用hadoop jar命令执行Hadoop自带的wordcount

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar wordcount /input /output

程序開始执行，成功后查看输出目录

bin/hadoop fs -ls /output

查看结果

bin/hadoop fs -cat /output/part-r-00000

至此hadoop分布式集群配置完毕！

以上是对Hadoop的配置信息，希望可以尽可能的写得具体，可是终究不能概括全部的bug。之前也看了非常多集群搭建的书和博客。还是遇到了非常多困难。本次从零開始配置也是为了排除一些干扰。希望可以帮助到和我一样摸索前进的人吧。

# 从零開始搭建Hadoop2.7.1的分布式集群的更多相关文章

搭建Hadoop2.7.1的分布式集群
Hadoop 2.7.1 (2015-7-6更新),hadoop的环境配置不是特别的复杂,但是确实有很多细节需要注意,不然会造成许多配置错误的情况.尽量保证一次配置正确防止反复修改. 网上教程有很多关 ...
Hadoop（二）CentOS7.5搭建Hadoop2.7.6完全分布式集群
一完全分布式集群(单点) Hadoop官方地址:http://hadoop.apache.org/ 1 准备3台客户机 1.1防火墙,静态IP,主机名关闭防火墙,设置静态IP,主机名此处略,参考 ...
CentOS7.5搭建Hadoop2.7.6完全分布式集群
一完全分布式集群搭建 Hadoop官方地址:http://hadoop.apache.org/ 1 准备3台客户机 1.2 关闭防火墙,设置静态IP,主机名关闭防火墙,设置静态IP,主机名此处略 ...
Centos7.5搭建Hadoop2.8.5完全分布式集群部署
一.基础环境设置 1. 准备4台客户机(VMware虚拟机) 系统版本:Centos7.5 节点配置: 192.168.208.128 --Master 192.168.208.129 --Slave ...
Docker中搭建Hadoop-2.6单机伪分布式集群
1 获取一个简单的Docker系统镜像,并建立一个容器. 1.1 这里我选择下载CentOS镜像 docker pull centos 1.2 通过docker tag命令将下载的CentOS镜像名称 ...
基于hadoop2.6.0搭建5个节点的分布式集群
1.前言我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA.ResourceManager+HA,并使用zookeeper来管理Hadoop集群 2.规划 1.主 ...
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Had ...
搭建hbase1.2.5完全分布式集群
简介有一段时间,没写博客了,因为公司开发分布式调用链追踪系统,用到hbase,在这里记录一下搭建过程 1.集群如下: ip 主机名角色 192.168.6.130 node1.jacky.com ...
摘要: CentOS 6.5搭建Redis3.2.8伪分布式集群
from https://my.oschina.net/ososchina/blog/856678 摘要: CentOS 6.5搭建Redis3.2.8伪分布式集群前言最近在服务器上搭建了 ...

随机推荐

tpshop编辑框中上传图片过大变模糊
tpshop编辑框中上传图片过大变模糊图片超过2500的高就会变模糊设置最大的高度修改一下
python修改植物僵尸
import win32process#进程模块 import win32con#系统定义 import win32api#调用系统模块 import ctypes#C语言类型 import win3 ...
NYOJ999 师傅又被妖怪抓走了
只记得当下的眼疼 , ok 各种数据也试了 , 就是他娘的不对 , 我也是醉了 . 也是日了最野的狗附上日了哮天犬的代码 , 这个题先放放, 一段时间后再试试 , 明天开始状态压缩吧 .为期两天 ...
【DP悬线法】奶牛浴场
虽然还是悬线法,但是这道题可不能轻易地套模板了,而是要换一种思路,横着扫一遍,竖着扫一遍,时间复杂度依旧是O(n^2),然而空间复杂度有一定的优化如果用原来的方法,显然时间空间都会炸(如果你想用ma ...
BZOJ 1511 KMP
题意:求出每个前缀的最长周期之和(等于本身的算0) 思路: 求出来next数组建出next树找到不为0的最小的 n减去它就是答案 //By SiriusRen #include <cstd ...
5.27 indeed 第三次网测
1. 第一题, 没有看 2. 暴力枚举.每一个部分全排列, 然后求出最大的请求数. #include<bits/stdc++.h> #define pb push_back typedef ...
［转］line-height1.5和line-height:150%的区别
line-height1.5和line-height:150%的区别一.区别区别体现在子元素继承时,如下: 父元素设置line-height:1.5会直接继承给子元素,子元素根据自己的font ...
轻量数据库SQLiteDataBase的相关操作方法
一.查询操作: 查询操作比较复杂,主要有如下操作: db.rawQuery(String sql, String[] selectionArgs); db.query(String table, St ...
Mongo连接远程数据库
mongo IP+Port CrabyterV5 首先这么操作是基于配置了环境变量的,可以参照http://www.cnblogs.com/daiyonghui/p/5209076.html mong ...
时序分析：ARMA方法（平稳序列）
憔悴到了转述中文综述的时候了........ 在统计学角度来看,时间序列分析是统计学中的一个重要分支, 是基于随机过程理论和数理统计学的一种重要方法和应用研究领域. 时间序列按其统计特性可分为平稳性 ...

# 从零開始搭建Hadoop2.7.1的分布式集群

一 操作环境说明

二 材料准备

三 搭建開始

至此hadoop分布式集群配置完毕！

# 从零開始搭建Hadoop2.7.1的分布式集群的更多相关文章

随机推荐

热门专题

一操作环境说明

二材料准备

三搭建開始