Hive简介

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

建立Hive表

hive中创建表时,默认情况下hive负责管理数据,这就是所谓的“托管表”。建立托管表的语法比较简单,和写SQL建表也比较类似:

DROP TABLE example_table;
CREATE TABLE if not exists example_table(example_id STRING, example_name STRING ) row format delimited fields terminated by ',';

需要注意的是,建立字段的定义,以及row的delimeter,这里指定为”,”。

托管表建立完成后,表中并无数据,这就需要我们向表中插入一些数据。但Hive中并不可以通过insert一条数据的方式向表中插入数据,可以通过下面的方式从本地文件中加载(当然也可以从HDFS中加载,语法稍微不同):

LOAD DATA LOCAL INPATH 'LocalFile' OVERWRITE INTO TABLE region_table;

由于在第一步中我们已经设定行分隔符为’,’,这里的LocalFile的每一行都要由,进行分隔,并在加载完成后,对应到定义的字段中去。

但在我们的实际应用场景下,Hive中使用的数据大部分都是从外部文件中得到的,这时候就需要创建“外部表”。

drop table task_table;
create external table if not exists task_table
( doc string )
stored as
inputformat 'Hive进行的InputFormat转换'
outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/数据所在的HDFS文件夹/';

使用external关键字之后,Hive就知道数据并不是托管的,不会将数据移到自己的数据仓库目录中;而且在drop外部表时,也不会碰数据,只会删除hive中的元数据。

InputFormat

和Hadoop中的InputFormat类似,我们在定义外部表时,需要指定特定的InputFormat以将HDFS上的文件按行映射到对应的数据上去。但是,我们在CREATE外部表语句中定义的InputFormat与Hadoop中Map使用的InputFormat有所不同,外部表中的定义的InputFormat并不能决定map分片数量。

在hive中运行“select * from example_table”时直接返回当前所有值,并不会启动mapreduce任务,而当构建一些复杂的特殊的HQL语句时,就会启动一个mapreduce任务来进行处理。

hive中运行参数的设置可以通过hive命令中的“--hive-conf 参数名=参数值”来定义,在hive启动的mapreduce任务中,使用的默认是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat类,与table中定义的InputFormat根本无关,了解hadoop的应该知道,Combine表示可能会合并多个小文件一起处理,与我们当前需求并不符合。而如果需要设置每个文件只能由一个map任务来处理时,原来的继承FileInputFormat并重写isSplittable方法并不起作用,抛出异常。这是因为Hive中启动的mapreduce任务的InputFormat必须是org.apache.hadoop.hive.ql.io.HiveInputFormat的子类,可以通过设置mapred.input.format.class=org.apache.hadoop.hive.ql.io.HiveInputFormat,并将参数mapreduce.input.fileinputformat.split.minsize设置(单位是字节)的非常大来达到目的。

也可以在hive配置文件中进行整体的调整:

<property>
<name>mapreduce.input.fileinputformat.split.minsize</name>
<value>1099511627776</value>
</property>
<property>
<name>hive.input.format</name>
<value>org.apache.hadoop.hive.ql.io.HiveInputFormat</value>
</property>

UDF函数

Hive中有很多的内置函数,如果可以通过内置函数来解决,就不需要编写UDF来完成任务。

可以通过下面的命令来显示出hive中的所有内置函数:

hive -e "show functions";

比如可以使用from_unixtime,cast, hour三个函数的组合来完成将时间转换成小时的工作:

hour(from_unixtime(cast(raw['ti'] as bigint),'yyyy-MM-dd HH:mm:ss'))

如何在hive中自定义UDF(User Define Function)?这里说明一下如何在java中定义UDF。

首先,需要继承类:org.apache.hadoop.hive.ql.exec.UDF,并写一个名称为evaluate的函数,由于Hive使用的是反射的方式来进行调用的,并不强调参数以及返回值,可以随便写,在使用时注意就可以了(甚至可以在UDF函数中重载多个evaludate方法)。

编写完成后,需要在HQL脚本中使用下面的方式来进行调用:

add jar “对应的jar包路径”
create temporary function function_name as 'UDF类名称';

之后,就可以在sql中使用function_name进行操作,注意其输入参数以及返回值。

HQL语句

hive中可以执行HQL语句,其基本格式与SQL语句非常类似。可以通过hive shell的方式执行,也可以通过hive –e “hql语句”或hive –f “hql文件”的方式执行。

示例:

select example_udf_function(doc) raw   from example_table;

此外,HQL语句还支持嵌套。这部分只是个入门教程,因此,后续深入研究。

Hive使用入门的更多相关文章

  1. [Hadoop大数据]——Hive部署入门教程

    Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. ...

  2. Hadoop生态圈-Hive快速入门篇之HQL的基础语法

    Hadoop生态圈-Hive快速入门篇之HQL的基础语法 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作 ...

  3. Hadoop生态圈-Hive快速入门篇之Hive环境搭建

    Hadoop生态圈-Hive快速入门篇之Hive环境搭建 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库 数据 ...

  4. hive编程入门课程(加精)

    hive编程入门课程 http://wenku.baidu.com/link?url=BfyZWjz48G_6UJImzWw39OLB0sUrIYEYxoxNpaFbADUQekmOvQy4FPY1f ...

  5. [转帖]Hive 快速入门(全面)

    Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家 阅读数 4343更多 分类专栏: hadoop 大数据   转载: https://www.codercto.com/ ...

  6. hive从入门到放弃(一)——初识hive

    之前更完了<Kafka从入门到放弃>系列文章,本人决定开新坑--hive从入门到放弃,今天先认识一下hive. 没看过 Kafka 系列的朋友可以点此传送阅读: <Kafka从入门到 ...

  7. hive从入门到放弃(二)——DDL数据定义

    前一篇文章,介绍了什么是 hive,以及 hive 的架构.数据类型,没看的可以点击阅读:hive从入门到放弃(一)--初识hive 今天讲一下 hive 的 DDL 数据定义 创建数据库 CREAT ...

  8. hive从入门到放弃(三)——DML数据操作

    上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言. 没看过的可以点击跳转阅读: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--D ...

  9. hive从入门到放弃(四)——分区与分桶

    今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--DDL数据定义 hive从入门到放弃(三)--DML数据操作 分区 ...

  10. HIVE快速入门

    (一)简单入门 1.创建一个表 create table if not exists ljh_emp( name string, salary float, gender string) commen ...

随机推荐

  1. Java基础学习-常见API

    package commonAPIs; /*java.lang 类 Object java.lang.Object public class Object类 Object 是类层次结构的根类.每个类都 ...

  2. Django中类视图使用装饰器的方式

    类视图使用装饰器 为类视图添加装饰器,可以使用两种方法. 为了理解方便,我们先来定义一个为函数视图准备的装饰器(在设计装饰器时基本都以函数视图作为考虑的被装饰对象),及一个要被装饰的类视图. def ...

  3. react 生命周期图

    1. react v16 版本生命周期 2. react v17 (还未发布), 生命周期将被改动,下面红框的部分就是会被删除的部分,注意调整!

  4. apt-get -f install

    http://zhidao.baidu.com/link?url=tZLEfm1Ycc1pWS67-95fXU596CtwA_1l2pPfzINUTxvOCvWdf3JZsWuZNxsxn0Jv6Om ...

  5. Eclipse远程调试Java程序

    1. 在服务器上运行jar包时加入参数 -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=n,address= 2. 在Eclipse中操作 ...

  6. 在exsi6.0中安装debian8.1 64位 无界面服务器版.

    之前介绍了exsi6.0的安装. 现在开始应用. 上一篇介绍的exsi6.0是安装在U盘上的系统.U盘为群联芯片,芯片型号为2251-50/30.容量为2G.发现容量足够用.比较节省成本. 现在开始为 ...

  7. win10/ubuntu双系统卸载删除ubuntu系统

    1.重启进入boot-设置windows启动项为首选项. 2.删除EFI中ubuntu引导启动项: a.将EFI分区挂载到M盘->(管理员权限)命令行输入:mountvol M: /s b.进入 ...

  8. Uoj 441 保卫王国

    Uoj 441 保卫王国 动态 \(dp\) .今天才来写这个题. 设 \(f[u][0/1]\) 表示子树 \(u\) 中不选/选 \(u\) 时的最小权值和,显然有:\(f[u][0]=\sum ...

  9. 将美化进行到底,把 PowerShell 做成 oh-my-zsh 的样子

    不知你有没有看过 Linux 上 oh-my-zsh 的样子?看过之后你一定会惊叹,原来命令行还能这么玩!然而 Windows 下能这么玩吗?答案是可行的,接下来就来看看怎么玩. Windows 下我 ...

  10. 使 32 位程序使用大于 2GB 的内存

    不管在 32 位 Windows 上还是在 64 位 Windows 上,32 位的应用程序都只能使用最大 2GB 的内存,这是我们司空见惯的一个设定.但其实 Windows 提供了一些方法让我们打破 ...