1. 前言

Hadoop-2.4.0的源码目录下有个BUILDING.txt文件，它介绍了如何在Linux和Windows下编译源代码，本文基本是遵照BUILDING.txt指示来操作的，这里再做一下简单的提炼。

第一次编译要求能够访问互联网，Hadoop的编译依赖非常多的东西，一定要保证机器可访问互联网，否则难逐一解决所有的编译问题，但第一次之后的编译则不用再下载了。

2. 安装依赖

在编译Hadoop 2.4.0源码之前，需要将下列几个依赖的东西安装好：

1) JDK 1.6或更新版本（本文使用JDK1.7，请不要安装JDK1.8版本，JDK1.8和Hadoop 2.4.0不匹配，编译Hadoop 2.4.0源码时会报很多错误）

2) Maven 3.0或更新版本

3) ProtocolBuffer 2.5.0

4) CMake 2.6或更新版本

5) Findbugs 1.3.9，可选的（本文编译时未安装）

在安装好之后，还需要设置一下环境变量，可以修改/etc/profile，也可以是修改~/.profile，增加如下内容：

export JAVA_HOME=/root/jdk

export CLASSPATH=$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

export CMAKE_HOME=/root/cmake

export PATH=$CMAKE_HOME/bin:$PATH

export PROTOC_HOME=/root/protobuf

export PATH=$PROTOC_HOME/bin:$PATH

export MAVEN_HOME=/root/maven

export PATH=$MAVEN_HOME/bin:$PATH

本文以root用户在/root目录下进行安装，但实际可以选择非root用户及非/root目录进行安装。

2.1. 安装ProtocolBuffer

标准的automake编译安装方式：

1) cd /root

2) tar xzf protobuf-2.5.0.tar.gz

3) cd protobuf-2.5.0

4) ./conigure --prefix=/root/protobuf

5) make

6) make install

2.2. 安装CMake

1) cd /root

2) tar xzf cmake-2.8.12.2.tar.gz

3) cd cmake-2.8.12.2

4) ./bootstrap --prefix=/root/cmake

5) make

6) make install

2.3. 安装JDK

1) cd /root

2) tar xzf jdk-7u55-linux-x64.gz

3) cd jdk1.7.0_55

4) ln -s jdk1.7.0_55 jdk

2.4. 安装Maven

1) cd /root

2) tar xzf apache-maven-3.0.5-bin.tar.gz

3) ln -s apache-maven-3.0.5 maven

3. 编译Hadoop源代码

完成上述准备工作后，即可通过执行命令：mvn package -Pdist -DskipTests -Dtar，启动对Hadoop源代码的编译。请注意一定不要使用JDK1.8。

如果需要编译成本地库（Native Libraries）文件，则使用命令：mvn package -Pdist,native -DskipTests -Dtar。如果C/C++程序需要访问HDFS等，需要使用navite方式编译生成相应的库文件。也可以使用mvn package -Pnative -DskipTests -Dtar特意编译出本地库文件。

附1:无联网环境编译

如果想在无联网环境下编译Hadoop 2.4.0，是个非常复杂的工程，在早期的Hadoop中实现过，对于2.4.0来说有点难了。

但可以采取曲线救国方式，找一台可以联网的机器，先成功编译一次，然后将这个源码包目录打包复制到不能联网的机器。但要注意，保持两台机器的目录相同，并执行相同的编译命令。

为什么要求目录保持相同了？假设在联网机器的/root/hadoop-2.4.0-src下编译的，进入/root/hadoop-2.4.0-src，然后执行：find . -name "*.xml" |xargs grep "/root/"，可以看到下表格中的内容，“/root/”被写入到众多xml文件中了，这是导致需要联网重新下载的根本原因，可以将它们替换成目标机器的实际目录，这样也可以无联网编译。

find . -name "*.xml" |xargs grep "/root/"

./hadoop-tools/hadoop-datajoin/target/antrun/build-main.xml: <delete dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-datajoin/target/test-dir"/>

./hadoop-tools/hadoop-datajoin/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-datajoin/target/test-dir"/>

./hadoop-tools/hadoop-datajoin/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-datajoin/target/log"/>

./hadoop-tools/hadoop-extras/target/antrun/build-main.xml: <delete dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-extras/target/test-dir"/>

./hadoop-tools/hadoop-extras/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-extras/target/test-dir"/>

./hadoop-tools/hadoop-extras/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-extras/target/log"/>

./hadoop-tools/hadoop-gridmix/target/antrun/build-main.xml: <delete dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-gridmix/target/test-dir"/>

./hadoop-tools/hadoop-gridmix/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-gridmix/target/test-dir"/>

./hadoop-tools/hadoop-gridmix/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-gridmix/target/log"/>

./hadoop-tools/hadoop-openstack/target/antrun/build-main.xml: <mkdir dir="/root/hadoop-2.4.0-src/hadoop-tools/hadoop-openstack/target/test-dir"/>

附2编译环境

整个过程是在阿里云64位主机上进行的，2.30GHz单核1G内存：

[root@AY140408105805619186Z hadoop-2.4.0-src]# uname -a

Linux AY140408105805619186Z 2.6.18-308.el5 #1 SMP Tue Feb 21 20:06:06 EST 2012 x86_64 x86_64 x86_64 GNU/Linux

[root@AY140408105805619186Z ~]# cat /etc/redhat-release

CentOS release 5.8 (Final)

附3：版本信息

名称	版本	包名	说明
Maven	3.0.5	apache-maven-3.0.5-bin.tar.gz	使用3.2.1可能会有问题
CMake	2.8.12.2	cmake-2.8.12.2.tar.gz
JDK	1.7.0	jdk-7u55-linux-x64.gz	不能使用JDK1.8.0
Protocol Buffers	2.5.0	protobuf-2.5.0.tar.gz
Hadoop	2.4.0	hadoop-2.4.0-src.tar.gz

附4：常见错误

1) unexpected end tag: </ul>

[ERROR] Failed to execute goal org.apache.maven.plugins:maven-javadoc-plugin:2.8.1:jar (module-javadocs) on project hadoop-annotations: MavenReportException: Error while creating archive:

[ERROR] Exit code: 1 - /root/hadoop-2.4.0-src/hadoop-common-project/hadoop-annotations/src/main/java/org/apache/hadoop/classification/InterfaceStability.java:27: error: unexpected end tag: </ul>

[ERROR] * </ul>

[ERROR] ^

[ERROR]

[ERROR] Command line was: /root/jdk1.8.0/jre/../bin/javadoc @options @packages

原因是InterfaceStability.java中的注释问题：

解决办法，将JDK换成1.7版本，使用JDK1.8编译就会遇到上述问题，将</ul>行删除可以解决问题，但后续还会遇到类似的问题，所以不要使用JDK1.8编译Hadoop 2.4.0。

附5：相关文档

《HBase-0.98.0分布式安装指南》

《Hive 0.12.0安装指南》

《ZooKeeper-3.4.6分布式安装指南》

《Hadoop 2.3.0源码反向工程》

《在Linux上编译Hadoop-2.4.0》

《Accumulo-1.5.1安装指南》

《Drill 1.0.0安装指南》

《Shark 0.9.1安装指南》

更多，敬请关注技术博客：http://aquester.cublog.cn。

在Linux上编译Hadoop-2.4.0的更多相关文章

mac OS X Yosemite 上编译hadoop 2.6.0/2.7.0及TEZ 0.5.2/0.7.0 注意事项
1.jdk 1.7问题 hadoop 2.7.0必须要求jdk 1.7.0,而oracle官网已经声明,jdk 1.7 以后不准备再提供更新了,所以趁现在还能下载,赶紧去down一个mac版吧 htt ...
64位CentOS上编译 Hadoop 2.2.0
下载了Hadoop预编译好的二进制包,hadoop-2.2.0.tar.gz,启动起来后.总是出现这样的警告: WARN util.NativeCodeLoader: Unable to load n ...
CentOS 64位上编译 Hadoop 2.6.0
Hadoop不提供64位编译好的版本号,仅仅能用源代码自行编译64位版本号. 学习一项技术从安装開始.学习hadoop要从编译開始. 1.操作系统编译环境 yum install cmake lzo- ...
在Linux上编译Hadoop-2.4.0实践与总结
问题导读: 1.编译源码前需要安装哪些软件? 2.安装之后该如何设置环境变量? 3.为什么不要使用JDK1.8? 4.mvn package -Pdist -DskipTests -Dtar的作用是什 ...
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)--------hadoop环境的搭建
Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)------https://blog.csdn.net/pucao_cug/article/details/71698903 ...
在docker容器中编译hadoop 3.1.0
在docker容器中编译hadoop 3.1.0 优点:docker安装好之后可以一键部署编译环境,不用担心各种库不兼容等问题,编译失败率低. Hadoop 3.1.0 的源代码目录下有一个 `sta ...
尝试在Linux上编译KestrelHttpServer
Kestrel是目前在非Windows平台上运行ASP.NET 5应用程序的唯一可用Web服务器,但微软似乎将它冷落在一边,源代码更新很慢. 今天试着在Linux上编译Kestrel的源代码,遇到了很 ...
使用Windows上Eclipse远程调试Linux上的Hadoop
一.设置Eclipse运行用户如果以与Hadoop运行用户名(比如grid)不同的用户运行Eclipse,则无法对Hadoop运行用户所属的文件进行管理,运行Map/Reduce程序也会报& ...
Linux上编译安装PHP
这篇文章主要介绍了关于Linux上编译安装PHP,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下之前在服务器上编译安装了PHP运行环境,但是安装完过了一段时间就差不多忘记了,只是零零星 ...

随机推荐

MySQL 存储引擎、锁、调优、失误与事务回滚、与python交互、orm
1.存储引擎(处理表的处理器) 1.基本操作 1.查看所有存储引擎 mysql> show engines; 2.查看已有表的存储引擎 mysql> show create table 表 ...
在VritualBox中安装CentOS7
系统:Windows10 位详细步骤参考: Windows平台上通过VirtualBox安装centos虚拟机安装virtual box 出现2503错误解决:c:/windows/temp 添加 ...
django Chinese
http://usyiyi.cn/translate/django_182/contents.html
Hp培训学习注册攻略
输入h20507.www2.hp.com/Saba/Web/Main用以注册的Hp partner portnal账户登入,
咱妈说别乱点链接之浅谈CSRF攻击
平时经常听到人们说别乱点链接,小心有病毒.还有长辈们转发的“天呐~XXX的阴谋,全是病毒”.“XXX惊天大病毒,点了苹果手机就要爆炸!”.“现在转发热门连接会乱扣费!千万别点!”. 到底长辈们说的这些 ...
python学习——练习题（7）
""" 题目:将一个列表的数据复制到另一个列表中. """ import copy def validate(a, b): "&q ...
mysql 挑选列导入
insert into boleht_development.`htprojects`(id,pname,`general`,imgsrc,whatwedo,howwedo,bp) select ci ...
留用未验证 js适配根字体大小
方法一:<script> (function (doc, win) { var docEl = doc.documentElem ...
mybatis mysql 批量insert 返回主键
Mybatis在插入单条数据的时候有两种方式返回自增主键: mybatis3.3.1支持批量插入后返回主键ID, 首先对于支持自增主键的数据库:useGenerateKeys和keyProper ...
VMWare中三种网络连接模式的区别
VMWare中有桥接.NAT.host-only三种网络连接模式,在搭建伪分布式集群时,需要对集群的网络连接进行配置,而这一操作的前提是理解这三种网络模式的区别. 参考以下两篇文章可以更好的理解: V ...

在Linux上编译Hadoop-2.4.0

目录

1. 前言

2. 安装依赖

2.1. 安装ProtocolBuffer

2.2. 安装CMake

2.3. 安装JDK

2.4. 安装Maven

3. 编译Hadoop源代码

附1:无联网环境编译

附2编译环境

附3：版本信息

附4：常见错误

1) unexpected end tag: </ul>

附5：相关文档

在Linux上编译Hadoop-2.4.0的更多相关文章

随机推荐

热门专题