附录A 编译安装Hadoop
A.1 编译Hadoop
A.1.1 搭建环境
第一步安装并设置maven
1. 下载maven安装包
建议安装3.0以上版本(由于Spark2.0编译要求Maven3.3.9及以上版本),本次安装选择的是maven3.3.9的二进制包,下载地址如下:
http://mirror.bit.edu.cn/apache/maven/maven-3/
2. 上传git并解压缩
把下载的maven安装包上传到/home/spark/work目录,使用如下命令解压缩并把文件夹移动到/app/soft目录下:
$cd /home/spark/work
$tar -zxf apache-maven-3.3.9-bin.tar.gz
$mv maven-3.3.9 /app/soft
$ll /app/soft
3. 编译安装
在/etc/profile配置文件中加入如下设置:
export PATH=/app/soft/maven-3.3.9/bin:$PATH
修改/etc/profile配置文件并验证配置是否成功:
$source /etc/profile
$mvn -version
查看Maven是否安装成功
第二步使用yum安装必要软件
以root用户使用yum安装svn、gcc等编译所需要的软件:
#yum install svn
#yum install autoconf automake libtool cmake
#yum install ncurses-devel
#yum install openssl-devel
#yum install gcc*
第三步安装并设置protobuf
注:该程序包需要在gcc安装完毕后才能安装,否则提示无法找到gcc编译器。
1. 下载protobuf安装包
下载链接为https://code.google.com/p/protobuf/downloads/list
图 附录A‑2 Protobuf下载页面
2. 解压安装包并移动目录
把protobuf-2.5.0.tar.gz安装包上传到/home/spark/work目录,通过如下命令把该安装包解压并移动到/app/soft目录中
$tar -zxf protobuf-2.5.0.tar.gz
$mv protobuf-2.5.0 /app/soft
$ll /app/soft
3. 编译安装
进入目录以root用户运行如下命令对protobuf进行编译安装,该过程比较慢,需要花费十几分钟时间:
#cd /app/soft/protobuf-2.5.0
#./configure
#make
#make check
#make install
4. 验证是否安装成功
编译安装成功之后,通过如下方式来验证是否安装成功:
#protoc
图 附录A‑3 确认Protobuf是否安装成功
A.1.2 编译Hadoop
第一步下载Hadoop源代码并解压
可以在apache官网或者镜像站点下载hadoop源代码包,比如在下面地址中选择下载hadoop-2.7.2-src.tar.gz源代码包:
http://apache.fayea.com/hadoop/common/hadoop-2.7.2/
下载后把源代码包上传到/home/spark/work目录中解压,然后移动到/app/compile目录:
$cd /home/spark/work
$tar -zxf hadoop-2.7.2-src.tar.gz
$mv hadoop-2.7.2-src /app/compile
$ll /app/complie
第二步编译Hadoop源代码
在Hadoop源代码的根目录执行如下命令:
$cd /app/compile/hadoop-2.7.2-src
$mvn package -Pdist,native -DskipTests –Dtar
任务进行编译,耗费的时间较长,在编译过程需要联网,从网络中下载所需要依赖包。由于依赖包速度较慢,可以打开新的命令终端使用$du -sh查看整个目录或$du -sh *子目录大小变化,该过程井场卡死或出现异常,这种情况下可以中断编译过程,重新执行命令进行编译,编译完成后截图如下:
图 附录A‑4 Hadoop编译结果
第三步验证编译是否成功
位,如下图所示。其中打包好的hadoop-2.7.2.tar.gz文件存在hadoop-dist/target目录中,作为后续部署的安装包。
图 附录A‑5 验证Hadoop编译是否成功
A.2 安装Hadoop
由于在实战过程中,需要使用HDFS文件系统,以及在介绍运行架构使用需要使用YARN调度框架需要安装Hadoop,这里使用的是Hadoop2.7.2版本。
A.2.1 修改配置文件
第一步上传并解压Hadoop安装包
使用前面编译好的hadoop-2.7.2安装包,或者从apache网站上下载,上传到master节点的/home/spark/work目录下,解压缩并移动到/app/spark目录下:
$cd /home/spark/work
$tar -zxf hadoop-2.7.2.tar.gz
$mv hadoop-2.7.2 /app/spark
$ll /app/spark
第二步在Hadoop目录下创建子目录
以hadoop用户登录在/app/spark/hadoop-2.7.2目录下创建tmp、name和data目录
$cd /app/spark/hadoop-2.7.2
$mkdir tmp
$mkdir name
$mkdir data
$ll
第三步配置hadoop-env.sh
使用如下命令打开配置文件hadoop-env.sh:
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$sudo vi hadoop-env.sh
加入如下配置内容,设置JAVA_HOME和PATH路径:
export JAVA_HOME=/app/soft/jdk1.7.0_55
export PATH=$PATH:/app/spark/hadoop-2.7.2/bin
export HADOOP_CONF_DIR=/app/spark/hadoop-2.7.2/etc/hadoop
编译配置文件hadoop-env.sh,并确认生效
$source hadoop-env.sh
$hadoop version
图 附录A‑6 验证Hadoop部署是否正确
第四步配置yarn-env.sh
在/app/spark/hadoop-2.7.2/etc/hadoop打开配置文件yarn-env.sh
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$sudo vi yarn-env.sh
加入配置内容,设置JAVA_HOME路径
export JAVA_HOME=/app/soft/jdk1.7.0_55
使用如下命令编译配置文件yarn-env.sh,使其生效:
$source yarn-env.sh
第五步配置core-site.xml
使用如下命令打开core-site.xml配置文件
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$sudo vi core-site.xml
在配置文件中,按照如下内容进行配置
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/app/spark/hadoop-2.7.2/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property>
</configuration>
第六步配置hdfs-site.xml
使用如下命令打开hdfs-site.xml配置文件:
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$sudo vi hdfs-site.xml
在配置文件中,按照如下内容进行配置
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/app/spark/hadoop-2.7.2/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/app/spark/hadoop-2.7.2/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>
第七步配置mapred-site.xml
默认情况下不存在mapred-site.xml文件,可以从模板拷贝一份,并打开该配置文件:
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$cp mapred-site.xml.template mapred-site.xml
$sudo vi mapred-site.xml
在配置文件中,按照如下内容进行配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
第八步配置yarn-site.xml
使用如下命令打开yarn-site.xml配置文件
$cd /app/spark/hadoop-2.7.2/etc/hadoop
$sudo vi yarn-site.xml
在配置文件中,按照如下内容进行配置
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
第九步配置Slaves文件
使用$sudo vi slaves打开从节点配置文件,在文件中加入master、slave1和slave2节点作为数据节点(DataNode):
master
slave1
slave2
第十步向各节点分发Hadoop程序
确认slave1和slave2节点/app/spark所属组和用户均为spark,然后进入mater节点/app/spark目录,使用如下命令把hadoop-2.7.2文件夹复制到slave1和slave2节点:
$cd /app/spark
$scp -r hadoop-2.7.2 spark@slave1:/app/spark/
$scp -r hadoop-2.7.2 spark@slave2:/app/spark/
A.2.2 启动并验证部署
第一步格式化NameNode
$cd /app/spark/hadoop-2.7.2/
$./bin/hdfs namenode -format
图 附录A‑7 格式化NameNode
第二步启动并验证HDFS
使用如下命令启动HDFS:
$cd /app/spark/hadoop-2.7.2/sbin
$./start-dfs.sh
此时在master上面运行的进程有:NameNode、SecondaryNameNode和DataNode,而slave1和slave2上面运行的进程有:NameNode和DataNode
第三步启动并验证YARN
使用如下命令启动YARN:
$cd /app/spark/hadoop-2.7.2/sbin
$./start-yarn.sh
此时在master上运行的进程有:NameNode、SecondaryNameNode、DataNode、NodeManager和ResourceManager,而slave1和slave2上面运行的进程有:NameNode、DataNode和NodeManager。
附录A 编译安装Hadoop的更多相关文章
- Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例
Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例 一.在Eclipse下编译安装Hadoop插件 Hadoop的Eclipse插件现在已经没有二进制版直接提供,只能自己编译. ...
- Hadoop集群搭建-03编译安装hadoop
Hadoop集群搭建-05安装配置YARN Hadoop集群搭建-04安装配置HDFS Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hado ...
- 附录C 编译安装Hive
如果需要直接安装Hive,可以跳过编译步骤,从Hive的官网下载编译好的安装包,下载地址为http://hive.apache.org/downloads.html . C.1 编译Hive C.1 ...
- [大牛翻译系列]Hadoop(20)附录A.10 压缩格式LZOP编译安装配置
附录A.10 LZOP LZOP是一种压缩解码器,在MapReduce中可以支持可分块的压缩.第5章中有一节介绍了如何应用LZOP.在这一节中,将介绍如何编译LZOP,在集群做相应配置. A.10.1 ...
- Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载mave ...
- Hadoop第3周练习--Hadoop2.X编译安装和实验
作业题目 位系统下进行本地编译的安装方式 选2 (1) 能否给web监控界面加上安全机制,怎样实现?抓图过程 (2)模拟namenode崩溃,例如将name目录的内容全部删除,然后通过secondar ...
- CentOS7 Hadoop 3.1.0 编译安装
1.配置环境变量 JAVA_HOME=/jdk1..0_131 ANT_HOME=/apache-ant- MAVEN_HOME=/apache-maven- FINDBUGS_HOME=/findb ...
- 基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进 ...
- Hadoop学习笔记(一)——编译安装和配置
近期工作调动.打算补一下大数据处理的知识.可能会陆续涉及hadoop.mongodb.ddbs等. 首先Apache提供二进制的Hadoop版本号是32位的.在启动时总是有警告,所以想自己编译一遍.部 ...
随机推荐
- Webform Session、Cookies传值,跳转页面方式
Session:每个独立的浏览器都会创建一个独立的Session,不是一台电脑一个Session 存放位置:服务器上 作用:只要里面有内容,那么这个网站中所有的C#端都能访问到这个变量 优点:安全,速 ...
- web应用程序
1.web应用程序和网站的区别 应用程序有两种模式C/S.B/S.C/S是客户端/服务器端程序,也就是说这类程序一般独立运行.而B/S就是浏览器端/服务器端应用程序,这类应用程序一般借助IE等浏览器来 ...
- dns解析慢 修改的参数
情况: ping域名时反应速度慢,ping ip却很正常 方法一:禁用ipv6 /etc/hosts中注释ipv6相关的 vim /etc/sysconfig/networks NETWORKING_ ...
- Unity3D 脚本手册
1.private Ray ray; --定义射线 ray = Camera.main.ScreenPointToRay(Input.mousePosition); --摄像机发出的射线投射鼠标到 ...
- C++哈夫曼树编码和译码的实现
一.背景介绍: 给定n个权值作为n个叶子结点,构造一棵二叉树,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree).哈夫曼树是带权路径长度最短的树,权值较大的 ...
- Twitter面试题蓄水池蓄水量算法(原创 JS版,以后可能会补上C#的)
之前在群里有人讨论Twitter的面试题,蓄水池蓄水量计算,于是自己写了个JS版的(PS:主要后台代码还要编译,想想还是JS快,于是就使用了JS了.不过算法主要还是思路嘛,而且JS应该都没问题吧^_^ ...
- Backbone源码分析(二)
在传统MVC框架模式中,Model承担业务逻辑的任务.Backbone作为一个mvc框架,主要的业务逻辑交由Model与Collection来实现.Model代表领域对象,今天主要学一下Model源码 ...
- 使用CSS使内容垂直居中的N中方法。
使用css+div使页面内容水平居中的方法大家并不陌生,那么如何使内容垂直居中呢? OK,下面进入正题,不如我们使用做高中数学题时经常用的思想:分情况讨论. 1.当待垂直居中的DIV高宽为已知时: ...
- 从零3D基础入门XNA 4.0(2)——模型和BasicEffect
[题外话] 上一篇文章介绍了3D开发基础与XNA开发程序的整体结构,以及使用Model类的Draw方法将模型绘制到屏幕上.本文接着上一篇文章继续,介绍XNA中模型的结构.BasicEffect的使用以 ...
- ABP(现代ASP.NET样板开发框架)主题线下交流会(上海)开始报名了!
点这里进入ABP系列文章总目录 ABP主题线下交流会(上海)开始报名了 ABP是“ASP.NET Boilerplate Project (ASP.NET样板项目)”的简称.它是采用最佳实践和流行技术 ...