hadoop2.2.0+hive-0.10.0完全分布式安装方法

hadoop+hive-0.10.0完全分布式安装方法

1、jdk版本：jdk-7u60-linux-x64.tar.gz

http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk7-downloads-1880260.html

2、hive版本：hive-0.10.0.tar.gz

https://archive.apache.org/dist/hive/hive-0.10.0/

3、hadoop版本：hadoop-2.2.0.tar.gz

http://apache.fayea.com/apache-mirror/hadoop/common/hadoop-2.2.0/

4、Linux操作系统：ubuntu-14.04-server-amd64.iso

http://releases.ubuntu.com/14.04/

模拟3台安装,在hosts文件中添加以下信息，功能分配如下：

192.168.1.150 hdp1 //namenode,SecondaryNamenode,ResourceManager

192.168.1.151 hdp2 //datanode,nodemanager

192.168.1.152 hdp3 //datanode,nodemanager

1、jdk安装

（1）将下载的jdk文件jdk-7u60-linux-x64.tar.gz解压到相应的文件夹下（可根据情况自己选择安装路径）:

# tar zxf jdk-7u60-linux-x64.tar.gz

# mv jdk1.7.0_60 /usr/local/jdk7

（2）配置jdk 环境变量

# vi ~/.bashrc 打开.bashrc文件，添加下面配置信息

export JAVA_HOME="/usr/local/jdk7"

export PATH="$PATH:$JAVA_HOME/bin"

（3）验证是否安装正确

# java -version

java version "1.7.0_60"

Java(TM) SE Runtime Environment (build 1.7.0_60-b19)

Java HotSpot(TM) 64-Bit Server VM (build 24.60-b09, mixed mode)

2、新建一个用户，如hadoop，并设置密码

# groupadd hadoop

# useradd -c "Hadoop User" -d /home/hadoop -g hadoop -m -s /bin/bash hadoop

# passwd hadoop

hadoop

3、配置ssh

(1)切换到hdp1新建的hadoop用户下：# su - hadoop

(2)$ ssh-keygen -t rsa

(3)$ cat .ssh/id_rsa.pub >> .ssh/authorized_keys

(4)$ ssh localhost 验证是否成功

(5)hdp2,hdp3采用同样的方法配置ssh，然后将各自的.ssh/id_rsa.pub追加到hdp1的.ssh/authorized_keys中，实现hdp1到hdp2、hdp3的免密码登录，方便启动服务

登录到hdp2的hadoop用户:scp .ssh/id_rsa.pub hadoop@hdp1:.ssh/hdp2_rsa

登录到hdp3的hadoop用户:scp .ssh/id_rsa.pub hadoop@hdp1:.ssh/hdp3_rsa

在hdp1中：cat .ssh/hdp2_rsa >> .ssh/authorized_keys

cat .ssh/hdp3_rsa >> .ssh/authorized_keys

注：以上的准备工作三台机器应完全一样，尤其注意安装的目录，修改相应的主机名等信息

接下来安装Hadoop部分

1、解压文件,并配置环境变量

将下载的hadoop-2.2.0.tar.gz解压到/home/hadoop路径下:

tar -zxvf hadoop-2.2.0.tar.gz /home/hadoop/

移动hadoop-2.2.0到/usr/local目录下：

sudo mv hadoop-2.2.0 /usr/local/

注意：每台机器的安装路径要相同！！

# vi ~/.bashrc 打开.bashrc文件，添加下面配置信息

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin

2、 hadoop配置过程

配置之前，需要在hdp1本地文件系统创建以下文件夹：

~/hadoop/dfs/name

~/hadoop/dfs/data

~/hadoop/temp

这里要涉及到的配置文件有7个：

~/hadoop/etc/hadoop/hadoop-env.sh

~/hadoop/etc/hadoop/yarn-env.sh

~/hadoop/etc/hadoop/slaves

~/hadoop/etc/hadoop/core-site.xml

~/hadoop/etc/hadoop/hdfs-site.xml

~/hadoop/etc/hadoop/mapred-site.xml

~/hadoop/etc/hadoop/yarn-site.xml

以上个别文件默认不存在的，可以复制相应的template文件获得。

配置文件1：hadoop-env.sh

修改JAVA_HOME值（export JAVA_HOME=/usr/java/jdk7）

配置文件2：yarn-env.sh

修改JAVA_HOME值（export JAVA_HOME=/usr/java/jdk7）

配置文件3：slaves （这个文件里面保存所有slave节点）

写入以下内容：

hdp2

hdp3

配置文件4：core-site.xml

<name>fs.defaultFS</name>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/home/hadoop/hadoop/temp</value>

<description>Abase for other temporary directories.</description>

</property>

<name>hadoop.proxyuser.hadoop.hosts</name>

</property>

<name>hadoop.proxyuser.hadoop.groups</name>

</property>

</configuration>

配置文件5：hdfs-site.xml

<name>dfs.namenode.secondary.http-address</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

</configuration>

配置文件6：mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

</property>

</configuration>

配置文件7：yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.admin.address</name>

</property>

<name>yarn.resourcemanager.webapp.address</name>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

</property>

</configuration>

3、复制到其他节点

这里可以写一个shell脚本进行操作（有大量节点时比较方便）

cp2slave.sh

#!/bin/bash

scp –r /usr/local/hadoop hadoop@hdp2:/usr/local/

scp –r /usr/local/hadoop hadoop@hdp3:/usr/local/

4、启动验证

4.1 启动hadoop

进入安装目录： cd hadoop/

(1)格式化namenode：bin/hdfs namenode –format

(2)启动hdfs: sbin/start-dfs.sh

此时在hdp1上面运行的进程有：namenode, secondarynamenode

hdp2和hdp3上面运行的进程有：datanode

(3)启动yarn: sbin/start-yarn.sh

此时在hdp1上面运行的进程有：namenode,secondarynamenode,resourcemanager

hdp2和hdp3上面运行的进程有：datanode,nodemanager

(4)启动historyserver: sbin/mr-jobhistory-daemon.sh start historyserver

查看集群状态：bin/hdfs dfsadmin –report

查看文件块组成：bin/hdfs fsck / -files -blocks

查看HDFS: http://192.168.1.150:50070

查看RM: http://192.168.1.150:8088

4.2 运行示例程序：

先在hdfs上创建一个文件夹

bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar pi 2 1000

接下来安装Mysql部分,存储hive元数据

1、sudo apt-get install mysql-server 按提示安装，并设置root用户密码

2、创建mysql用户hive

$ mysql -u root -p 进入root用户

mysql> CREATE USER 'hive'@'%' IDENTIFIED BY 'hive';

3、授权：

mysql> GRANT ALL PRIVILEGES ON *.* TO'hive'@'%' WITH GRANT OPTION;

4、登录到hadoop 用户 $ mysql -u hiv -p

5、创建数据库hive

mysql>create database hive;

接下来安装Hive部分

1、解压文件,并配置环境变量

将下载的hive-0.10.0.tar.gz解压到/home/hadoop路径下。

sudo mv hive/usr/local/

注意：每台机器的安装路径要相同！！

# vi ~/.bashrc 打开.bashrc文件，添加下面配置信息

export HIVE_HOME=/usr/local/hive

export PATH=$PATH:${HIVE_HOME}/bin

2、在hive/conf中添加hive-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<property>
<name>hive.metastore.local</name>
<value>false</value>
<description>Thrift uri for the remote metastore. Used by metastore client to connect to remote metastore.</description>
</property>

<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
<description></description>
</property>

<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>

<property>
<name>javax.jdo.PersistenceManagerFactoryClass</name>
<value>org.datanucleus.jdo.JDOPersistenceManagerFactory</value>
<description>class implementing the jdo persistence</description>
</property>

<property>
<name>javax.jdo.option.DetachAllOnCommit</name>
<value>true</value>
<description>detaches all objects from session so that they can be used after transaction is committed</description>
</property>

<property>
<name>javax.jdo.option.NonTransactionalRead</name>
<value>true</value>
<description>reads outside of transactions</description>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
<description>username to use against metastore database</description>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>hive</value>
<description>password to use against metastore database</description>
</property>
</configuration>

3、将mysql jdbc driver拷贝到hive的lib下

4、启动hive并测试：

hive> show tables;

Time taken: 5.204 seconds

hadoop2.2.0+hive-0.10.0完全分布式安装方法的更多相关文章

Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
Trident (又称为MSHTML),是微软的窗口操作系统(Windows)搭载的网页浏览器—Internet Explorer的排版引擎的名称. 它的第一个版本随着1997年10月Internet ...
OpenEXR-2.2.0在Win7 x64系统下的安装方法
最近在研究openexr这种文件格式,免不得安装一下OpenEXR软件,这个软件是开源的,需要编译安装,我的安装方法是这样的,分享一下. 一:去官网http://www.openexr.com/dow ...
2-10 就业课(2.0)-oozie：10、伪分布式环境转换为HA集群环境
hadoop 的基础环境增强 HA模式 HA是为了保证我们的业务系统 7 *24 的连续的高可用提出来的一种解决办法,现在hadoop当中的主节点,namenode以及resourceManager ...
Hadoop-2.8.0分布式安装手册
目录目录 1 1. 前言 3 2. 特性介绍 3 3. 部署 5 3.1. 机器列表 5 3.2. 主机名 5 3.2.1. 临时修改主机名 6 3.2.2. 永久修改主机名 6 3.3. 免密码登 ...
hadoop: hive 1.2.0 在mac机上的安装与配置
环境:mac OS X Yosemite + hadoop 2.6.0 + hive 1.2.0 + jdk 1.7.0_79 前提:hadoop必须先安装,且处于运行状态(伪分式模式或全分布模式均可 ...
Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装
Hadoop-1.2.1伪分布下 hive-0.10.0内嵌模式安装 1.下载hive-0.10.0 网址是:http://archive.apache.org/dist/hive/hive-0.10 ...
Windows环境下搭建Hadoop(2.6.0）+Hive(2.2.0)环境并连接Kettle(6.0)
前提:配置JDK1.8环境,并配置相应的环境变量,JAVA_HOME 一.Hadoop的安装 1.1 下载Hadoop (2.6.0) http://hadoop.apache.org/release ...
kafka_2.11-0.10.0.0安装步骤
Kafka安装配置我们使用5台机器搭建Kafka集群: 1. cluster-1-namenode-1-001 172.16.0.147 2. cluster-1-datanode-1- ...
iOS 10.0之前和之后的Local Notification有神马不同
在iOS 10.0之前apple还没有将通知功能单独拿出来自成一系.而从10.0开始原来的本地通知仍然可用,只是被标记为过时.于是乎我们可以使用10.0全新的通知功能.别急-让我们慢慢来,先从iOS ...

随机推荐

Oracle database server 安装tips
需要手动解压第二个包的文件合并到第一个包的相同目录中. 以12c为例,需要把 winx64_12102_SE2_database_1of2.zip和winx64_12102_SE2_database_ ...
如何真正免费运营推广APP应用
随着移动终端的迅速普及,各类APP如雨后春笋般涌现出来,但是真正的运营成功的产品却寥寥无几. 从瓜分渠道资源到抢占用户的过程中,很多同行都明显的感觉到,渠道平台所带来的量日益减少,但是刊例价格却一再攀 ...
MATLAB的循环结构
循环结构有两种基本形式:while 循环和for 循环.两者之间的最大不同在于代码的重复是如何控制的.在while 循环中,代码的重复的次数是不能确定的,只要满足用户定义的条件,重复就进行下去.相对地 ...
类似微博菜单，用swift语言编写
自定义tabar搭载界面1.-自定义标题按钮_如图 2.10-导航条按钮封装演示如下源代码下载DSWeibo.zip
CMD/AMD
AMD 规范在这里:https://github.com/amdjs/amdjs-api/wiki/AMDCMD 规范在这里:https://github.com/seajs/seajs/issues ...
JAXB - Annotations, Class Fields as Attributes: XmlAttribute
Provided that XML lets you represent a data item as a single value, there is no cut-and-dried rule f ...
h2database源码浅析：事务、两阶段提交
Transaction Isolation Transaction isolation is provided for all data manipulation language (DML) sta ...
再跟SQL谈一谈--高级篇（一）
1.SELECT KEYWORD ①TOP ②LIKE ③IN ④BETWEEN...AND ⑤ALIAS 2.SELECT JOIN ①JOIN | INNER JOIN ②LEFT JOIN ③R ...
iOS-深复制(mutableCopy)与浅复制(copy)
浅复制:只复制指向对象的指针,而不复制引用对象本身.对于浅复制来说,A和A_copy指向的是同一个内存资源,复制的只是一个指针,对象本身资源还是只有一份(对象引用计数+1),那如果我们对A_copy执 ...
C# Generic(转载)
型(generic)是C#语言2.0和通用语言运行时(CLR)的一个新特性.泛型为.NET框架引入了类型参数(type parameters)的概念.类型参数使得设计类和方法时,不必确定一个或多个具体 ...

hadoop2.2.0+hive-0.10.0完全分布式安装方法

hadoop2.2.0+hive-0.10.0完全分布式安装方法的更多相关文章

随机推荐

热门专题