CDH5上安装Hive,HBase,Impala,Spark等服务

Apache Hadoop的服务的部署比較繁琐。须要手工编辑配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群，提供向导式的安装步骤。因为须要对Hive,HBase,Impala,Spark进行功能測试，就採用了Cloudera Manager方式进行安装。

Cloudera Manager提供两种软件包安装源，Package 和 Parcel：

Package就是一个个rpm文件。以yum的方式组织起来。

Parcel是rpm包的压缩格式。以.parcel结尾。全部的rpm压缩在一个文件里，方便下载和分发，使用manifest.json文件对parcel文件进行描写叙述，将parcel文件保存到局域网内的Webserver上，安装过程中就不须要从互联网上下载文件了。实现了离线安装。

一、安装前准备工作

安装Hive,HBase,Impala,Spark之前，Cloudera Manager应该已经安装好了，參见：本地Yum软件源安装Cloudera Manager 5 这篇文章。使用的操作系统为 CentOS-6.5-x86_64。CM版本号为 5.0.2 ，採用parcel包方式安装。

1、下载安装中须要的文件：

从 http://archive.cloudera.com/cdh5/parcels/5.0.2.13/ 下载例如以下的文件，保存到Webserver的 /var/www/html/cdh5/parcels/latest 文件夹：

[root@localhost latest]# pwd

/var/www/html/cdh5/parcels/latest

[root@localhost latest]# ll

total 1793948

-rw-r--r-- 1 root root 1836961055 Jun 15 06:51 CDH-5.0.2-1.cdh5.0.2.p0.13-el6.parcel

-rw-r--r-- 1 root root      33190 Jun 15 09:04 manifest.json

从 http://archive-primary.cloudera.com/redhat/cdh/ 下载：RPM-GPG-KEY-cloudera，这是对rpm包进行校验的文件，保存到Webserver的 /var/www/html/redhat/cdh 文件夹：

[root@localhost cdh]# pwd

/var/www/html/redhat/cdh

[root@localhost cdh]# ll

total 4

-rw-r--r-- 1 root root 1690 Jun 16 07:32 RPM-GPG-KEY-cloudera

[root@localhost cdh]#

2、准备安装的server

測试环境一共使用了六台server，列表例如以下：

server列表
ip地址	hostname	描写叙述信息
172.16.230.140	archive.cloudera.com	本地webserver
172.16.230.141	cm.worker.com	CM，管理节点
172.16.230.151	h1.worker.com	节点1
172.16.230.152	h2.worker.com	节点2
172.16.230.153	h3.worker.com	节点3
172.16.230.154	h4.worker.com	节点4

全部的server上安装CentOS-6.5-x86_64，并关闭防火墙、selinux、保持时间一致。

保持全部的root用户password一致。一个Hadoop集群中的节点最少为三台，本測试环境的节点为四台，上面的ip地址须要依据自已的网络情况进行调整，这是我搭建的虚拟机的IP。

3、在webserver上公布CentOS-6.5-x86_64安装盘文件

安装过程中，须要从CentOS-6.5-x86_64安装盘上读取一些rpm包，须要将安装盘公布为本地yum源。将安装盘挂载到webserver，并加入软连接到web文件夹。webserver上的web根文件夹例如以下：

[root@localhost html]# pwd

/var/www/html

[root@localhost html]# ll

total 12

drwxr-xr-x 3 root root 4096 Jun 15 06:48 cdh5

lrwxrwxrwx 1 root root   24 Jun 20 08:12 centos_media -> /media/CentOS_6.5_Final/

drwxr-xr-x 3 root root 4096 Jun 14 10:04 cm5

drwxr-xr-x 3 root root 4096 Jun 16 07:29 redhat

4、创建 hosts 和 yum配置文件

创建hosts文件，保存到全部server的 /etc/hosts ，内容例如以下：

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.16.230.140 archive.cloudera.com

172.16.230.141 cm.worker.com

172.16.230.151 h1.worker.com

172.16.230.152 h2.worker.com

172.16.230.153 h3.worker.com

172.16.230.154 h4.worker.com

创建 myrepo.repo 文件，保存到全部server的 /etc/yum.repos.d 文件夹。内容例如以下：

[myrepo]

name=myrepo

baseurl=http://172.16.230.140/cm5/redhat/6/x86_64/cm/5/

enabled=1

gpgcheck=0

创建 CentOS-Media.repo 文件，保存到全部server的 /etc/yum.repos.d 文件夹。内容例如以下：

[c6-media]

name=CentOS-$releasever - Media

baseurl=http://172.16.230.140/centos_media

gpgcheck=0

enabled=1

exclude = jdk*

注意， /etc/yum.repos.d 文件夹。仅存在 myrepo.repo 和 CentOS-Media.repo 两个文件.

5、cm.worker.com 上安装 PostgreSQL

Hive须要使用一个关系数据库作为Metastore数据库，使用嵌入式数据库存在性能问题，须要在cm.worker.com 上安装一个PostgreSQL数据库。创建用户hiveuser。创建数据库 hivedb，指定数据库拥有者为hiveuser，具体过程能够參见这篇文章：PostgreSQL入门教程

二、图解Hive,HBase,Impala,Spark 的安装和配置

做了上面的准备工作后，登录CM5就能够開始安装了，安装过程大部分情况下都不须要改动默认值。须要改动的地方会以文字说明，以下是安装过程的截图。

1、登录CM5

2、选择Cloudera Express

3、可供选择的安装包列表

4、为CDH集群指定主机

输入 172.16.230.[151-154] ，依据自已网络情况进行调整，然后点击搜索。

5、进入加入主机向导

使用parcel安装方式，parcel下载路径不用改动，已经公布在本地webserver中了。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="加入主机向导1" />

不须要java加密。保留默认值：

输入root的password，全部节点的rootpassword是一致的。

同一时候安装的数据默觉得10。考虑到是虚拟机，改动为2。假设是真实server。请保留默认值为10.

进行节点CM管理程序安装，假设出现故障，请检查hostname与ip地址配置是否正确。

下载和分配parcel包，因为parcel包有1.8G大小，运行时间较长，能够喝杯咖啡再回来。

主机安装完毕：会对主机进行检查。有个 swappness 须要调整，假设是真实server，请将 swappness改动为0。尽量不使用交换分区。

6、进入加入服务向导：

选饿全部服务

保持默认的节点角色配置：

选择自己定义数据库，填写连接信息。并点击測试连接button：

加入服务的具体配置，保留默认值：

首次启动服务的时间比較长，大概二十分钟：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="加入服务向导10" />

加入服务完毕：

点击完毕后，就进入了CM管理的首页了。

7、进入CM首页

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveWFuZ3poYW9odWkxNjg=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="cm hmoe page" />

三、小结

本文描写叙述的hadoop安装方式是一种离线方式，通过CM5加快了环境搭建的速度，CM5将hadoop集群管理的复杂度大大减少。后面在測试中学习hadoop集群的调优。

原创作品，转载请注明出处：http://blog.csdn.net/yangzhaohui168/article/details/33403555