附录C 编译安装Hive

如果需要直接安装Hive，可以跳过编译步骤，从Hive的官网下载编译好的安装包，下载地址为http://hive.apache.org/downloads.html 。

C.1 编译Hive

C.1.1 下载Hive源代码包

在Hive的官网下载页面上下载，为加快下载速度选择中国境内的镜像，并下载apache-hive-1.2.1-src.tar.gz源代码包。下载后把安装包方放在目录/home/spark/work目录下，用如下命令解压缩hive安装文件：

$cd /home/spark/work/

$tar -zxf apache-hive-1.2.1-src.tar.gz

改名并移动到/app/compile目录下：

$mv apache-hive-1.2.1-src /app/compile/hive-1.2.1-src

$ll /app/compile/

C.1.2 编译Hive

编译Hive源代码的时候，需要从网上下载依赖包，所以整个编译过程机器必须保证在联网状态。编译执行如下脚本：

$cd /app/compile/hive-1.2.1-src

$export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

$mvn -Phadoop-2 -Pdist -DskipTests -Dmaven.javadoc.skip=true clean package

在编译过程中可能出现速度慢或者中断，可以再次启动编译，编译程序会在上次的编译中断处继续进行编译，整个编译过程耗时与网速紧密相关，网速较快的情况需要1个小时左右（下图的时间是重复多次下载依赖包，然后编译成功的界面），最终编译打包的文件为$HIVE_HOME/packaging /target/apache-hive-1.2.1-bin.tar.gz。

图附录C‑1 编译Hive成功界面

通过如下命令查看最终编译完成整个目录大小，可以看到大小为350M左右：

$du -s /app/compile/hive-1.2.1-src

C.2 安装Hive

C.2.1 解压缩并迁移

使用上一步骤编译好的Hive编译包移动到安装目录上，用如下命令解压缩hive安装文件：

$cd /app/compile/hive-1.2.1-src/packaging/target/

$mv apache-hive-1.2.1-bin.tar.gz /home/spark/work/

$cd /home/spark/work/

$tar -zxf hive-1.2.1-bin.tar.gz

改名并迁移到/app/soft目录下：

$cd /app/spark

$mv apache-hive-1.2.1-bin /app/spark/hive-1.2.1

$ll /app/soft

图附录C‑2 Hive移动到/app/soft目录下

C.2.2 下载MySql驱动并放到Hive的lib目录下

到mysql官网进入下载页面http://dev.mysql.com/downloads/connector/j/，默认情况下是Windows安装包，这里需要选择Platform Independent版本下载zip格式的文件

图附录C‑3 MySql驱动下载界面

把下载的hive安装包和mysql驱动包，使用如下命令放到Hive的lib目录下：

$cd /home/spark/work

$mv mysql-connector-java-5.1.34-bin.jar /app/soft/hive-1.2.1/lib

C.2.3 配置/etc/profile环境变量

使用如下命令打开/etc/profile文件，设置如下参数：

export HIVE_HOME=/app/soft/hive-1.2.1

export PATH=$PATH:$HIVE_HOME/bin

export CLASSPATH=$CLASSPATH:$HIVE_HOME/bin

配置完毕后，需要编译该配置文件或重新登录以生效该配置：

$source /etc/profile

C.2.4 设置hive-env.sh配置文件

进入hive-1.2.1/conf目录，复制hive-env.sh.templaete为hive-env.sh并进行配置：

$cd /app/soft/hive-1.2.1/conf

$cp hive-env.sh.template hive-env.sh

$sudo vi hive-env.sh

分别设置HADOOP_HOME和HIVE_CONF_DIR两个值：

# Set HADOOP_HOME to point to a specific hadoop install directory

export HADOOP_HOME=/app/spark/hadoop-2.7.2

# Hive Configuration Directory can be controlled by:

export HIVE_CONF_DIR=/app/soft/hive-1.2.1/conf

C.2.5 设置hive-site.xml配置文件

创建hive-site.xml配置文件，在该配置文件中加入配置内容

$touch hive-site.xml

$sudo vi hive-site.xml

hive默认为derby数据库，derby数据只运行单个用户进行连接，这里需要调整为mysql数据库，以下为修改配置内容：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExsit=true; characterEncoding=UTF-8</value>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

</property>

<name>datanucleus.readOnlyDatastore</name>

<value>false</value>

</property>

<name>datanucleus.fixedDatastore</name>

<value>false</value>

</property>

<name>datanucleus.autoCreateSchema</name>

</property>

<name>datanucleus.autoCreateTables</name>

</property>

<name>datanucleus.autoCreateColumns</name>

</property>

</configuration>

C.3 启动Hive并验证

C.3.1 启动Hive

实际使用时，一般通过后台启动metastore和hiveserver实现服务，命令如下：

$hive --service metastore &

$hive --service hiveserver2 &

图附录C‑4 Hive启动后台服务

启动用通过jps命令可以看到两个进行运行在后台

C.3.2 验证安装

登录hive，在hive创建表并查看该表，命令如下：

$hive

hive> create table test(a string, b int);

hive> show tables;

hive> desc test;

图附录C‑5 Hive中创建测试表

登录mysql，在TBLS表中查看新增test表：

$mysql -uhive -phive

mysql> use hive;

mysql> select TBL_ID, CREATE_TIME, DB_ID, OWNER, TBL_NAME,TBL_TYPE from TBLS;

图附录C‑6 在Hive元数据表查询到创建表

C.4 Hive实例演示

C.4.1 准备数据

第一步上传数据

交易数据存放在该系列配套资源的/saledata目录下，把这些数据文件上传到master节点的/home/spark/word目录下。

第二步启动Hive并胡藏剑数据库

启动HDFS、YARN和Hive，启动完毕后创建Hive数据库

$hive --service metastore &

$hive

hive> create database hive;

hive> show databases;

hive> use hive;

第一步在Hive创建和表

启动Hadoop集群，进入Hive命令行操作界面，使用如下命令创建三张数据表:

l tbDate定义了日期的分类，将每天分别赋予所属的月份、星期、季度等属性，字段分别为日期、年月、年、月、日、周几、第几周、季度、旬、半月；

l tbStock定义了订单表头，字段分别为订单号、交易位置、交易日期；

l tbStockDetail文件定义了订单明细，该表和tbStock以交易号进行关联，字段分别为订单号、行号、货品、数量、金额：

hive> CREATE TABLE tbDate(dateID string,theyearmonth string,theyear string,themonth string,thedate string,theweek string,theweeks string,thequot string,thetenday string,thehalfmonth string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' ;

Time taken: 1.121 seconds

hive> CREATE TABLE tbStock(ordernumber STRING,locationid string,dateID string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' ;

Time taken: 0.166 seconds

hive> CREATE TABLE tbStockDetail(ordernumber STRING,rownum int,itemid string,qty int,price int ,amount int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' ;

Time taken: 0.267 seconds

hive> show tables;

tbdate

tbstock

tbstockdetail

Time taken: 0.089 seconds, Fetched: 3 row(s)

第二步导入数据

从本地操作系统分别加载日期、交易信息和交易详细信息表数据

hive> LOAD DATA LOCAL INPATH '/home/spark/work/saledata/tbDate.txt' INTO TABLE tbDate;

Loading data to table hive.tbdate

Time taken: 2.784 seconds

hive> LOAD DATA LOCAL INPATH '/home/spark/work/saledata/tbStock.txt' INTO TABLE tbStock;

Loading data to table hive.tbstock

Time taken: 0.648 seconds

hive> LOAD DATA LOCAL INPATH '/home/spark/work/saledata/tbStockDetail.txt' INTO TABLE tbStockDetail;

Loading data to table hive.tbstockdetail

Time taken: 1.44 seconds

查看HDFS中相关SALEDATA数据库中增加了三个文件夹，分别对应三个表：

[spark@master ~]$ hadoop fs -ls /user/hive/warehouse/hive.db

Found 3 items

drwxr-xr-x - spark supergroup 0 2016-04-14 15:18 /user/hive/warehouse/hive.db/tbdate

drwxr-xr-x - spark supergroup 0 2016-04-14 15:18 /user/hive/warehouse/hive.db/tbstock

drwxr-xr-x - spark supergroup 0 2016-04-14 15:18 /user/hive/warehouse/hive.db/tbstockdetail

C.4.2 计算所有订单每年的总金额

第一步算法分析

要计算所有订单每年的总金额，首先需要获取所有订单的订单号、订单日期和订单金信息，然后把这些信息和日期表进行关联，获取年份信息，最后根据这四个列按年份归组统计获取所有订单每年的总金额。

第二步执行HSQL语句

hive> use hive;

hive> select c.theyear, sum(b.amount) from tbStock a,tbStockDetail b,tbDate c where a.ordernumber=b.ordernumber and a.dateid=c.dateid group by c.theyear order by c.theyear;

运行过程中创建两个Job，分别为application_1460617800545_0001和application_1460617800545_000，在YARN的资源管理器界面中（默认http://master:8088/），可以看到如下界面：

图附录C‑7 在YARN监控界面作业运行状态

第三步查看结果

整个计算过程使用了175.25秒，结果如下：

图附录C‑8 计算所有订单每年的总金额结果

C.4.3 计算所有订单每年最大金额订单的销售额

第一步算法分析

该算法分为两步：

1. 按照日期和订单号进行归组计算，获取所有订单每天的销售数据；

2. 把第一步获取的数据和日期表进行关联获取的年份信息，然后按照年份进行归组，使用Max函数，获取所有订单每年最大金额订单的销售额。

第二步执行HSQL语句

//第一步：按照日期和订单号进行归组计算，获取所有订单每天的销售数据

hive> select a.dateid,a.ordernumber,sum(b.amount) as sumofamount from tbStock a,tbStockDetail b where a.ordernumber=b.ordernumber group by a.dateid,a.ordernumber;

//第二步: 按照年份进行归组，使用Max函数，获取所有订单每年最大金额订单的销售额

hive> select c.theyear,max(d.sumofamount) from tbDate c,(select a.dateid,a.ordernumber,sum(b.amount) as sumofamount from tbStock a,tbStockDetail b where a.ordernumber=b.ordernumber group by a.dateid,a.ordernumber) d where c.dateid=d.dateid group by c.theyear sort by c.theyear;

运行过程中创建两个Job，分别为job_1437659442092_0004和job_1437659442092_0005，在YARN的监控界面中可以看到如下界面：

图附录C‑9在YARN监控界面作业运行状态

第三步查看结果

整个计算过程使用了171.41秒，结果如下：

图附录C‑10 查看所有订单每年最大金额订单的销售额结果

C.4.4 计算其他金额

位

hive> select c.theyear,c.thequot,sum(b.amount) as sumofamount from tbStock a,tbStockDetail b,tbDate c where a.ordernumber=b.ordernumber and a.dateid=c.dateid group by c.theyear,c.thequot order by sumofamount desc limit 10;

2008 1 5252819

2007 4 4613093

2007 1 4446088

2006 1 3916638

2008 2 3886470

2007 3 3870558

2007 2 3782235

2006 4 3691314

2005 1 3592007

2005 3 3304243

图附录C‑11所有订单中季度销售额前10位结果

以上的单据

hive> select a.ordernumber,sum(b.amount) as sumofamount from tbStock a,tbStockDetail b where a.ordernumber=b.ordernumber group by a.ordernumber having sumofamount>100000;

HMJSL00009024 119058

HMJSL00009958 159126

图附录C‑12 列出销售金额在100000以上的单据

附录C 编译安装Hive的更多相关文章

附录A 编译安装Hadoop
A.1 编译Hadoop A.1.1 搭建环境第一步安装并设置maven 1. 下载maven安装包建议安装3.0以上版本(由于Spark2.0编译要求Maven3.3.9及以上版本),本次 ...
（转载）Linux如何编译安装源码包软件
一.什么是源码包软件: 顾名思义,源码包就是源代码的可见的软件包,基于Linux和BSD系统的软件最常见:在国内源可见的软件几乎绝迹:大多开源软件都是国外出品:在国内较为出名的开源软件有fcitx;l ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
CentOS和Ubuntu下安装配置Greenplum数据库集群（包括安装包和源码编译安装）
首先说一下,无论是CentOS/RedHat还是Ubuntu都可以按源码方式.安装包方式编译安装. 1. 规划 192.168.4.93(h93) 1个主master 2个主segm ...
Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例
Ubuntu13.04 Eclipse下编译安装Hadoop插件及使用小例一.在Eclipse下编译安装Hadoop插件 Hadoop的Eclipse插件现在已经没有二进制版直接提供,只能自己编译. ...
基于cdh5.10.x hadoop版本的apache源码编译安装spark
参考文档:http://spark.apache.org/docs/1.6.0/building-spark.html spark安装需要选择源码编译方式进行安装部署,cdh5.10.0提供默认的二进 ...
编译安装spark 1.5.x（Building Spark）
原文连接:http://spark.apache.org/docs/1.5.0/building-spark.html · Building with build/mvn · Building a R ...
Hadoop学习笔记（一）——编译安装和配置
近期工作调动.打算补一下大数据处理的知识.可能会陆续涉及hadoop.mongodb.ddbs等. 首先Apache提供二进制的Hadoop版本号是32位的.在启动时总是有警告,所以想自己编译一遍.部 ...
azkaban编译安装配置文档
azkaban编译安装配置文档参考官方文档: http://azkaban.github.io/azkaban/docs/latest/ azkaban的配置文件说明:http://azkaban. ...

随机推荐

swfupload纠结bug总结
上传控件传到客户端的信息在IE7下乱码: 服务端 HttpUtility.UrlEncode,客户端 decodeURIComponent 上传大文件报404错: 用fiddler截取发现提示: 最可 ...
css中关于居中的问题
居中是最常用的一种css格式,不同的居中方法适和不同的环境中,下面总结了几种常用的居中方法,你可以不用它,但是无论你是一个资深前端大牛,还是小小初学者,当你见到它的时候不认识它就是你的不对啦!!! h ...
1051. Pop Sequence
原题连接:https://www.patest.cn/contests/pat-a-practise/1051 题目: Given a stack which can keep M numbers a ...
C#中常用的读取xml的几种方法(转)
本文完全来源于http://blog.csdn.net/tiemufeng1122/article/details/6723764,仅作个人学习之用. XML文件是一种常用的文件格式,例如WinFor ...
jQuery最基础最全面的选择器大览
一.基本选择器 1.标签选择器 (element):根据给定的标签名匹配元素 eg:$("h2")选取所有h2元素 --- 返回元素集合 2.类选择器 (.class):根 ...
C#模拟http 发送post或get请求
/// <summary> /// 模拟HTTP提交表单并获取返回数据 /// POST /// </summary> /// <param name="Url ...
canvas初探3：画方画圆
绘制矩形的方法,strokeRect().fillRect()及clearRect(). 方法描述 strokeRect(double x,double y,double w,double h) 使 ...
web端限时活动逻辑处理总结
由于要在web端做一个限时活动的功能,功能大致为:一个小时内可以报名参加活动,然后给予报名者奖品,先到先得.用到一些处理逻辑做下总结,以前没有做过类似的东西,都是自己先体验其他网站的报名方式,然后再摸 ...
Android-Parcelable
Parcelable和Serializable的区别: android自定义对象可序列化有两个选择一个是Serializable和Parcelable 一.对象为什么需要序列化 1.永久 ...
ASP.NET Identity 2新增双重认证、帐号锁定、防伪印章功能并修复了一些bug
Microsoft最近发布了ASP.NET Identity 2,该版本支持双重认证.帐号锁定以及防伪印章功能,还增强了用户帐号和索引.此外新版本还包含一个改进的密码验证器并修复了一些bug. 借助于 ...

附录C 编译安装Hive

附录C 编译安装Hive的更多相关文章

随机推荐

热门专题