Hadoop学习（3）-- 安装1.x版本

　　Hadoop有三种安装模式，分别为单机模式、伪分布式模式和完全分布式模式(集群模式)。本文安装版本是hadoop-1.1.2，hadoop-2.x版本安装请参考：http://www.cnblogs.com/hanganglin/articles/4254931.html。

一、单机模式

　单机模式是Hadoop的默认模式，单机模式只有一个节点，不使用HDFS，也不加载任何Hadoop的守护进程，该模式主要用户开发调试MapReduce应用程序逻辑。

二、伪分布式模式

　伪分布式hadoop是一个只有一个节点的集群，这个节点既是mater，也是slave；既是NameNode，也是DataNode；既是JobTracker，也是TaskTracker。

　本实例配置环境：① 宿主机win7；② vmware虚拟机：CentOS；③ vmware网络连接方式：host-only；④hadoop版本：1.1.2。

1、 设置静态IP地址

　 1) 设置宿主机本地网络共享：宿主机->本地连接->右键->属性->共享，将“允许其他网络用户通过此计算机的 Internet 连接来连接”前的复选框打钩，并选择家庭网络连接为“VMware Network Adapter VMnet1”(host-only连接方式使用此网卡)，点击确定，VMware Network Adapter VMnet1网络IP地址会自动修改为192.168.xx.1(本实例192.168.137.1)，子网掩码为255.255.255.0。

　 2) 修改虚拟机linux的IP地址配置：执行命令vi /etc/sysconfig/network-scripts/ifcfg-eth0，修改网卡ip地址获得方式BOOTPROTO、IP地址IPADDR、网卡对应网络地址NETWORK，本实例修改如下所示：

DEVICE=eth0  #描述网卡对应的设备别名，例如ifcfg-eth0的文件中它为eth0

BOOTPROTO=static  #设置网卡获得ip地址的方式，可能的选项为static，dhcp或bootp，分别对应静态指定的 ip地址，通过dhcp协议获得的ip地址，通过bootp协议获得的ip地址

IPADDR=192.168.137.100  #如果设置网卡获得ip地址的方式为静态指定，此字段就指定了网卡对应的ip地址

NETMASK=255.255.255.0  #网卡对应的网络掩码

NETWORK=192.168.137.1  #网卡对应的网络地址

GATEWAY=192.168.137.1  #网关地址

ONBOOT=yes  #系统启动时是否设置此网络接口，设置为yes时，系统启动时激活此设备

HWADDR=00:0c:29:c8:36:68  #对应的网卡物理地址

TYPE=Ethernet

#DNS1=8.8.8.8  #根据需要配置DNS 这两个为谷歌提供的免费全球DNS

#DNS2=8.8.4.4

　 3) 重新启动网络配置：执行命令service network restart。

　 4) 验证静态IP配置是否成功：① 执行命令ifconfig；② 在虚拟机linux中ping VMnet1网卡地址，如命令：ping 192.168.137.1；③ 在宿主机中ping虚拟机IP地址，如命令：ping 192.168.137.100。

2、修改主机名

　默认主机名为localhost.localdomain，为了测试方便，本实例将主机名修改为hadoop，执行命令：vi /etc/sysconfig/network，将HOSTNAME修改为hadoop然后保存退出。查看主机名命令为hostname，注意使用hostname hadoop命令只能将当前会话主机名修改为hadoop，重启后失效，因此建议修改配置文件。

3、绑定主机名和IP地址

　修改主机名后，执行命令：ping hadoop，系统会提示找不到主机，为了方便之后的配置可直接使用主机名代替ip地址，我们需要将主机hadoop和对应ip地址进行绑定，执行命令：vi /etc/hosts，增加一行：192.168.137.100 hadoop，前面为linux的ip地址，后面为主机名。

　注意：此处必须配置内网IP地址，特别是网络云主机。

4、关闭防火墙及防火墙的自动启动

　 hadoop集群很多地方需要使用linux的不同端口，为了方便学习，建议学习hadoop时将防火墙关闭。

　 1) 关闭当前防火墙进程命令：service iptables stop，验证是否关闭命令：service iptables status。

　 2) 查看防火墙是否自动重启，执行命令：chkconfig --list | grep iptables，若存在一个on状态，则防火墙会在下次系统启动时启动，我们需要关闭自动启动，执行命令：chkconfig iptables off，验证命令：chkconfig --list | grep iptables。

5、配置SSH免密码登陆

　 1) 生成ssh公钥，执行命令：ssh-keygen -t rsa，全部默认回车，会在当前用户所在目录下生成.ssh文件夹，地址：~/.ssh

　 2) 将生成的公钥放至公钥存放处authorized_keys(SSH会自动读取文件authorized_keys)，执行命令：cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys或ssh-copy-id -i /root/.ssh/id_rsa.pub localhost

　验证：ssh localhost　　

6、安装JDK

　 1) 利用文件上传工具WinSCP将JDK安装文件(本例jdk-6u27-linux-x64.bin)上传至虚拟机Linux路径/usr/local/目录下

　 2) 授予bin文件执行权限，执行命令：chmod u+x jdk-6u27-linux-x64.bin，然后执行解压命令：./jdk-6u27-linux-x64.bin

　 3) 重命名解压后文件夹，执行命令：mv jdk1.6.0_27 jdk 　　

　 4) 配置jdk环境变量，命令：vi /etc/profile，在空白处增加两行：export JAVA_HOME=/usr/local/jdk 和 export PATH=.:$JAVA_HOME/bin:$PATH

　 5) 使配置文件立即生效，命令：source /etc/profile

　验证：java -version

7、安装hadoop

　 1) 利用文件上传工具WinSCP将hadoop安装文件(本例hadoop-1.1.2.tar.gz)上传至虚拟机Linux路径/usr/local/目录下

　 2) 解压缩hadoop压缩包，执行命令：tar -zxvf hadoop-1.1.2.tar.gz

　 3) 重命名文件夹名称，命令：mv hadoop-1.1.2 hadoop

　 4) 修改环境变量，执行命令：vi /etc/profile，在PATH行前空白处增加一行： export HADOOP_HOME=/usr/local/hadoop，并修改PATH为：

export PATH=.:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH。

　 5) 使配置文件立即生效，命令：source /etc/profile

　 6) 修改hadoop的4个配置文件，位于$HADOOP_HOME/conf目录下，分别是hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml，详细修改如下所示：

　 ① hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/

　 ② core-site.xml，注意这里第4行hadoop应改成相应主机名，即linux操作系统名

<configuration>

    <property>

        <name>fs.default.name</name>

        <value>hdfs://hadoop:9000</value>

    </property>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/usr/local/hadoop/tmp</value>

    </property>

</configuration>

　 ③ hdfs-site.xml，注意dfs.replication为副本数，默认为3，这里配置成1

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.permissions</name>

        <value>false</value>

    </property>

</configuration>

　 ④ mapred-site/xml，同core-xite.xml，注意这里第4行hadoop应该改成相应主机名，即linux操作系统名

<configuration>

    <property>

        <name>mapred.job.tracker</name>

        <value>hadoop:9001</value>

    </property>

</configuration>

　 7) 对hadoop进行格式化，执行命令：hadoop namenode -format

　 8) 启动hadoop，执行命令：start-all.sh

　验证：

　 ① 执行JDK提供查看进程的命令：JPS，查看进程DataNode、SecondaryNameNode、NameNode、JobTracker和TaskTracker是否启动；

　 ② 在虚拟机Linux的浏览器中输入：a、http://hadoop:50070，查看NameNode是否启动正常；b、http://hadoop:50030，查看MapReduce是否启动正常；

　 ③ 在宿主机浏览器中验证，输入http://192.168.137.100:50070或者http://hadoop:50070(修改主机C:\Windows\System32\drivers\etc\hosts文件，增加配置192.168.137.100 hadoop)；

　常见错误解决办法：

　问题一：多次格式化hadoop导致报错，如何解决？

　解决：删除/usr/local/hadoop/tmp文件夹，并重新格式化

　问题二：启动hadoop报警告Waring：$HADOOP_HOME is deprecated.，如何解决？

　解决：vi /etc/profile ，添加一行 export HADOOP_HOME_WARN_SUPPRESS=1，并重启配置：source /etc/profile

三、完全分布模式（集群模式）

　我们在实际中使用hadoop，都是使用完全分布模式，该模式可以发挥集群的优势，真正体现hadoop强大的魅力。

　在本集群实例中，主节点为一台，运行NameNode、JobTracker和SecondaryNameNode，从节点为两台，分别运行DataNode和TaskTracker，主机名和IP分别如下：①主节点-hadoop0，IP地址192.168.137.101；②从节点1-hadoop1，IP地址192.168.137.102；③从节点2-hadoop2，IP地址192.168.137.103。

1、基本环境配置

　所有节点都需要配置基本环境，包括设置静态IP地址、修改主机名、关闭防火墙及防火墙的自动启动，详细可参考伪分布模式对应安装步骤。

2、批量绑定主机名与IP地址

　 1) 绑定配置所有节点的主机名和IP地址，选择某个节点并执行命令：vi /etc/hosts，并填入内容：

192.168.137.101     hadoop0

192.168.137.102     hadoop1

192.168.137.103     hadoop2

　 2) 将该节点的配置文件/etc/hosts分发给其他节点，在该节点上批量执行命令：scp /etc/hosts root@hadoop1:/etc/，将hadoop1分别替换成对应的主机名

3、批量配置SSH免密码登陆

　 1) 生成ssh密钥，在所有节点上执行命令：ssh-keygen -t rsa，全部默认回车，会在当前用户所在目录下生成.ssh文件夹，地址：~/.ssh

　 2) 将生成的公钥存放至文件authorized_keys中，选择某个节点（假设主节点hadoop0）并执行命令：cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

　 3) 其他节点分别将自己的公钥发送给hadoop0，分别执行命令：ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop0

　 4) 主节点hadoop0将包含所有节点公钥信息的文件authorized_keys分发给其他节点，在hadoop0上批量执行命令：scp /root/.ssh/authorized_keys root@hadoop1:/root/.ssh/，将hadoop1分别替换成对应的主机名，建议通过脚本自动执行。

　 SSH免密码登陆是hadoop集群配置中很关键的一个步骤，节点进程之间的沟通都通过SSH协议进行，必须配置免密码登陆。SSH是基于非对称安全加密的策略，每个节点都有一对公钥和私钥，通过公钥(或私钥)加密数据，只能通过对应的私钥(或公钥)来进行解密。假设客户端A想通过SSH免密码登陆到服务器B，A必须事先将自身的公钥A保存在B中，然后A会向B发送连接请求，同时发送公钥A。B接收到请求后，在本服务器上寻找A事先保存的公钥并与发送过来的公钥A进行比较。如果两个密钥一致，B就用公钥A加密“质询”信息并发送给A，A接收到加密后的“质询”信息并用私钥A进行解密，将解密后的“质询”再次发送给B，B通过接收到的“质询”与原“质询”比较，若相同，则建立与A的SSH连接。在整个连接建立过程中，不传输密码，安全性相当高。

4、批量安装jdk和hadoop

　 1) 在主节点hadoop0上安装jdk和hadoop，详细安装步骤见伪分布式对应操作步骤。hadoop安装完毕后，检查并删除logs和tmp文件夹下的所有文件；

　 2) 将hadoop0中的jdk和hadoop文件夹分别复制到其他从节点，在hadoop0节点上批量执行命令：scp -r /usr/local/jdk root@hadoop1:/usr/local/和scp -r /usr/local/hadoop root@hadoop1:/usr/local/，将hadoop1分别替换成对应的主机名；

　 3) 将hadoop0中的环境变量配置文件复制到其他从节点，在hadoop0中批量执行命令：scp /etc/profile root@hadoop1:/etc/，将hadoop1分别替换成对应的主机名；

　 4) 所有从节点分别执行命令：source /etc/profile，使环境变量配置文件立即生效；

　 5) 在主节点hadoop0中的配置文件hadoop/conf/slaves中配置从节点hadoop1和hadoop2，各占一行。配置文件hadoop/conf/masters用于指定SecondartNamenode的执行节点，根据实际需要进行配置。

　 6) 主节点hadoop0格式化，执行命令：hadoop namenode -format

　 7) 主节点hadoop0启动hadoop集群，执行命令：start-all.sh，会分别启动hadoop0的namenode、secondarynamenode、jobtracker进程，和hadoop1、hadoop2上的datanode、tasktracker进程

　注意事项：

　 ① 对于配置文件core-site.xml和mapred-site.xml在所有节点中都是相同的内容；

　 ② 集群批量配置命令，建议通过shell等脚本自动执行；

　 ③ 单独指定namenode与jobtracker，可以分别在core-site.xml和mapred-site.xml中指定节点，然后到节点中分别启动对应的进程；

　常见错误解决办法：

　问题一：启动hadoop集群后，某些从节点的DataNode进程无法启动？

　解决：删除从节点hadoop.tmp.dir指定的路径(通常为/hadoop/tmp)，然后主节点重新启动。

四、完全分布模式添加新节点

1、配置新节点的环境，参考完全分布模式的基本环境配置步骤；

2、主节点配置文件/etc/hosts添加新节点的主机和IP配置，并将该配置文件通过scp命令重新分发给所有的从节点；

3、在新节点中通过ssh-keygen命令生成ssh密钥，并通过ssh-copy-id命令将公钥发送至主节点。然后在主节点中，通过scp命令将authorized_keys文件分发给所有的从节点；

4、在主节点中，通过scp命令将jdk、hadoop和/etc/profile配置文件拷贝到所有新节点，然后分别在新节点中删除hadoop目录下的logs和tmp文件夹内容；

5、在主节点中的配置文件hadoop/conf/slaves中添加新节点的hostname；

6、新节点单独启动datanode和tasktracker进程，执行命令：hadoop-daemon.sh start datanode和hadoop-daemon.sh start tasktracker；

7、主节点刷新从节点信息，执行命令：hadoop dfsadmin -refreshNodes；

8、均衡整个集群的block存储，在新节点上执行（如果增加多个节点，只需在其中一个新节点执行即可）命令：./start-balancer.sh；

验证：通过http://hadoop0:50070查看从节点数是否增加。

五、集群安全模式介绍

　在分布式文件系统启动的时候，会进入安全模式，在该模式下，HDFS中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。安全模式启动后会在一定时间内自动退出，可通过http://hadoop0:50070查看当前分布式系统是否处于安全模式和安全模式退出还需要多少时间，当然也可以通过命令强制退出安全模式。

　查看是否启动安全模式：hadoop dfsadmin -safemode get

　使系统进入安全模式：hadoop dfsadmin -safemode enter

　使系统退出安全模式：hadoop dfsadmin -safemode leave

Hadoop学习（3）-- 安装1.x版本的更多相关文章

hadoop学习；安装jdk，workstation虚拟机v2v迁移；虚拟机之间和跨物理机之间ping网络通信;virtualbox的centos中关闭防火墙和检查服务启动
JDK 在Ubuntu下的安装与环境变量的配置前期准备工作: 找到 JDK 和配置TXT文件并拷贝到桌面下不是目录而是文件拷贝到桌面下以下的命令部分就直接复制粘贴就能够了 1.配 ...
Hadoop学习-hdfs安装及其一些操作
hdfs:分布式文件系统有目录结构,顶层目录是: /,存的是文件,把文件存入hdfs后,会把这个文件进行切块并且进行备份,切块大小和备份的数量有客户决定. 存文件的叫datanode,记录文件的切 ...
Hadoop学习笔记——安装Hadoop
sudo mv /home/common/下载/hadoop-2.7.2.tar.gz /usr/local sudo tar -xzvf hadoop-2.7.2.tar.gz sudo mv ha ...
黑马MySQL数据库学习day01 安装多个版本MySQL mysqld.exe工具
hadoop学习之hadoop完全分布式集群安装
注:本文的主要目的是为了记录自己的学习过程,也方便与大家做交流.转载请注明来自: http://blog.csdn.net/ab198604/article/details/8250461 要想深入的 ...
【Hadoop学习之三】Hadoop全分布式安装
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop3.1.1 全分布式就是集群,注意配置主机名. ...
hadoop学习通过虚拟机安装hadoop完全分布式集群
要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个had ...
Hadoop学习笔记(1)-Hadoop在Ubuntu的安装和使用
由于小编在本学期有一门课程需要学习hadoop,需要在ubuntu的linux系统下搭建Hadoop环境,在这个过程中遇到一些问题,写下这篇博客来记录这个过程,并把分享给大家. Hadoop的安装方式 ...
java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式
Hadoop简介和安装及伪分布式大数据概念大数据概论大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...

随机推荐

SiteMesh装饰器使用总结
SiteMesh是一个Java WEB项目的网页布局和修饰框架.使用SiteMesh后就不再需要在每个页面中都用<jsp:include>标签引入页头.页尾.导航等其他公用页面了. 可以将 ...
spring mvc和spring配置扫描包问题
spring mvc和spring俩配置文件,其中都要配置扫描包. <context:component-scan base-package="com.controller" ...
PHP自动加载__autoload的工作机制
PHP自动加载__autoload的工作机制 PHP的懒加载lazy loading 在 2011年11月12日那天写的已经有 4559 次阅读了感谢参考或原文服务器君一共花费了 ...
S5PV210裸板驱动：启动
以往2440和6410的启动方式,只要我们把裸板代码烧写到NAND FLASH的开始位置,当开发板上点启动时,处理器会自动从NAND FLASH上拷贝前面一段的代码到内部的RAM中执行.按照以前的方法 ...
Ogre初入手：最简单的ogre程序骨架
本文内容主要参考于页面 http://www.ogre3d.org/tikiwiki/tiki-index.php?page=Ogre+Wiki+Tutorial+Framework Ogre是一个非 ...
PureBasic 读取文件中一行的两个数据例子
, "Test1.txt") ; if the file could be read, we continue... , "Test2.txt") ) = ; ...
一 mybatis快速入门
什么是MyBatis MyBatis是支持普通SQL查询,存储过程和高级映射的优秀持久层框架. MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索. MyBatis可以使用简 ...
[转]C++ string的trim, split方法
很多其他语言的libary都会有去除string类的首尾空格的库函数,但是标准C++的库却不提供这个功能.但是C++string也提供很强大的功能,实现trim这种功能也不难.下面是几种方法: 1.使 ...
Asp.Net MVC Control向View传值
1.通过View(Parameter)参数传值 Control: namespace MyMVCDemo.Controllers { public class PersonControlle ...
Uploadify上传问题
版本:Uploadify Version 3.2官网:http://www.uploadify.com Uploadify是一款基于Jquery的上传插件,用起来很方便.但上传过程中的提示语言为英文, ...

Hadoop学习（3）-- 安装1.x版本

Hadoop学习（3）-- 安装1.x版本的更多相关文章

随机推荐

热门专题