hive第一篇----简介和使用客户端

摘要by crazyhacking：•Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序的映射器

详细的入门教程大家参考《hive指南》比较好。

Hive是Hadoop项目中的一个子项目，由FaceBook向Apache基金会贡献，其中TaoBao也是其中一位使用者+贡献者，Hive被视为一个仓库工具，可以将结构化的数据文件映射为一张数据库表，并可以将sql语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。



Hive主要分为以下几个部分：

    1.用户接口

       用户接口主要有三个：命令行(CLI)，客户端(Client) 和 Web界面(WUI)。其中最常用的是 CLI，启动的时候，会同时启动一个 Hive 服务。Client 是 Hive 的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出 Hive Server 所在节点，并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive的Web工具。

   2.元数据存储

       Hive 将元数据存储在数据库中，如 MySQL或者Derby嵌入式数据库。若将元数据存储在MySQL中，在TBLS中可以看见你建立的所有表信息，Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。

   3. 执行

    解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

   4. HDFS存储

    Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务）。

如图所示：

Hive 元数据存储

Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test，如图1



   Multi User Mode：通过网络连接到一个数据库中，是最经常使用到的组合模式，如图2



   Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端利用 Thrift 这个东东通过 MetaStoreServer 访问元数据库。如图3

Hive 的启动方式

    hive 命令行模式，直接输入/hive/bin/hive的执行程序，或者输入 hive –service cli

    hive web界面的启动方式，hive –service hwi

    hive 远程服务 (端口号10000) 启动方式，nohup hive –service hiveserver &

Hive的SQL

建表

    CREATE TABLE javabloger (foo INT, bar STRING);

插入

    LOAD DATA LOCAL INPATH '/work/hive/examples/files/kv1.txt' OVERWRITE INTO TABLE javabloger;

查询

    SELECT a.* FROM javabloger a;

Hive使用MySQL存放元数据

    可以参考一下这篇文章

   http://www.mazsoft.com/blog/post/2010/02/01/Setting-up-HadoopHive-to-use-MySQL-as-metastore.aspx

    别忘了下载 MySQL 的JDBC驱动，推荐下载 mysql-connector-java-5.1.11.tar.gz



Hive 与 JDBC

导入hive\lib下的所有jar包到IDE的classpath里面，还有hadoop中的 hadoop-0.20.2-core.jar包，即可运行下列代码：

package com.javabloger.hive;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.ResultSet;

import java.sql.Statement;

public class HiveTestCase {

public static void main(String[] args) throws Exception {

        Class.forName("org.apache.hadoop.hive.jdbc.HiveDriver");



        String dropSQL="drop table javabloger";

        String createSQL="create table javabloger (key int, value string)";

        String insterSQL="LOAD DATA LOCAL INPATH '/work/hive/examples/files/kv1.txt' OVERWRITE INTO TABLE javabloger";

        String querySQL="SELECT a.* FROM javabloger a";



        Connection con = DriverManager.getConnection("jdbc:hive://192.168.20.213:10000/default", "", "");

        Statement stmt = con.createStatement();

        stmt.executeQuery(dropSQL); // 执行删除语句

        stmt.executeQuery(createSQL); // 执行建表语句

        stmt.executeQuery(insterSQL); // 执行插入语句

        ResultSet res = stmt.executeQuery(querySQL);   // 执行查询语句



          while (res.next()) {

            System.out.println("Result: key:"+res.getString(1) +" –> value:" +res.getString(2));

        }

}

转自：http://www.javabloger.com/article/apache-hive-2.html

hive第一篇----简介和使用客户端的更多相关文章

spark第一篇--简介，应用场景和基本原理
摘要: spark的优势:(1)图计算,迭代计算(2)交互式查询计算 spark特点:(1)分布式并行计算框架(2)内存计算,不仅数据加载到内存,中间结果也存储内存为了满足挖掘分析与交互式实时查询的 ...
Python第一篇-简介和入门
简介: Python[1] (英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第 ...
highcharts第一篇---简介和使用
Highcharts 是一个用纯JavaScript编写的一个图表库, 能够很简单便捷的在web网站或是web应用程序添加有交互性的图表,并且免费提供给个人学习.个人网站和非商业用途使用.HighCh ...
promise第一篇-简介
1. 创建一个promise对象 var promise = new Promise(function(resolve, reject){ //异步处理 //处理结束后调用resolve或reject ...
分布式文件系统 FastDFS 5.0.5 & Linux CentOS 7 安装配置（单点安装）——第一篇
分布式文件系统 FastDFS 5.0.5 & Linux CentOS 7 安装配置(单点安装)--第一篇简介首先简单了解一下基础概念,FastDFS是一个开源的轻量级分布式文件系统,由 ...
SAP-ABAP系列第一篇SAP简介
第一篇 SAP简介 SAP全名为System Application and Products in Data Processing.SAP目前是全世界排名第一的RP软件,号称“全球最大的企业管理解决 ...
【ABAP系列】SAP ABAP7.40新语法简介第一篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP7.40新语法简 ...
第一篇 Replication：复制简介
本篇文章是SQL Server Replication系列的第一篇,详细内容请参考原文. 复制这个词来自拉丁语中的"replicare",意味着重复.Replication des ...
【译】第一篇 Replication：复制简介
本篇文章是SQL Server Replication系列的第一篇,详细内容请参考原文. 复制这个词来自拉丁语中的"replicare",意味着重复.Replication des ...

随机推荐

SQL　列拆分
with CTE as( SELECT A.id, B.value FROM( SELECT id, value = CONVERT(xml,'<root><v>' + REP ...
hh monitor
http://theholyjava.wordpress.com/2012/09/21/enabling-jmx-monitoring-for-hadoop-and-hive/ http://blog ...
gnome3
http://askubuntu.com/questions/67753/how-do-i-add-an-application-to-the-dash https://wiki.gnome.org/ ...
c++之模板
. 函数模板普通函数 void Swap(int &, int &); 模板函数 template <typename T> void Swap(T &, T & ...
OpenGL网络资源
转十大OpenGL教程 1．http://nehe.gamedev.net/这个是我觉得全世界最知名的OpenGL教程,而且有网友将其中48个教程翻译成了中文http://www.owlei.com ...
ubuntu14下python环境的配置
1.安装build依赖包(一些包需要用pip编译) sudo apt-get install python-dev 2.安装pip包管理工具 sudo apt-get install python-p ...
UIKit控件直接显示网页文字内容
NSString *html = @"<bold>Hello</bold> Now<br> <em>iOS</em> can cr ...
CI 框架 hooks 的调用方法
流程:在hooks中写一个类 , 在system/core/CodeIgniter.php 判断什么时候执行 hooks中的类涉及到了php反射获取类方法方法中的注释 ...
SQLite错误总结 error code 19: constraint failed
SQLite错误总结 1. android.database.sqlite.SQLiteConstraintException: error code 19: constraint failed错误原 ...
转：LoadRunner获取毫秒及字符串替换实现
今天做一个性能测试,参数化要求创建用户名不可以重复,想来想不没有什么好的办法来避免用户名字的重复.所以就想用时间+随机数来实现,但是实现中遇到一个问题. 名字中不可以包含.这个特殊的字符的.所以要处理 ...

hive第一篇----简介和使用客户端

hive第一篇----简介和使用客户端的更多相关文章

随机推荐

热门专题