Hive初识（四）

Hive本质上是一个数据仓库，但不存储数据(只存储元数据(metadata)，Hive中的元数据包括表的名字，表的列和分区及分区及其属性，表的属性（是否为外部表等），表的数据所在目录等)，用户可以借助Hive使用sql对存储在分布式文件系统中的大数据集进行读写

Hive查询语言（HiveQL）是一种查询语言，Hive处理在Metastore(元数据存储)分析结构化数据。

SELECT语句用来从表中检索的数据。WHERE子句中的工作原理类似于一个条件。它使用这个条件过滤数据，并返回给出一个有限的结果。

语法：下面给出的SELECT查询的语法

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition]

[GROUP BY col_list]

[HAVING having_condition]

[CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]]

[LIMIT number];

示例

举个例子SELECT...WHERE子句。假设employee表有如下Id，Name，Salary，Designation和Dept等字段，生成一个查询检索超过30000薪水的员工详细信息。

+------+--------------+-------------+-------------------+--------+

| ID   | Name         | Salary      | Designation       | Dept   |

+------+--------------+-------------+-------------------+--------+

|1201  | Gopal        | 45000       | Technical manager | TP     |

|1202  | Manisha      | 45000       | Proofreader       | PR     |

|1203  | Masthanvali  | 40000       | Technical writer  | TP     |

|1204  | Krian        | 40000       | Hr Admin          | HR     |

|1205  | Kranthi      | 30000       | Op Admin          | Admin  |

+------+--------------+-------------+-------------------+--------+

下面的查询检索使用上述业务情景的员工详细信息：

SELECT * FROM employee WHERE salary>30000;

成功查询后，能看到以下回应：

+------+--------------+-------------+-------------------+--------+

| ID   | Name         | Salary      | Designation       | Dept   |

+------+--------------+-------------+-------------------+--------+

|1201  | Gopal        | 45000       | Technical manager | TP     |

|1202  | Manisha      | 45000       | Proofreader       | PR     |

|1203  | Masthanvali  | 40000       | Technical writer  | TP     |

|1204  | Krian        | 40000       | Hr Admin          | HR     |

+------+--------------+-------------+-------------------+--------+

下面介绍使用SELECT语句的ORDER BY子句。

示例：假设需要生成一个查询用于检索员工的详细信息。

+------+--------------+-------------+-------------------+--------+

| ID   | Name         | Salary      | Designation       | Dept   |

+------+--------------+-------------+-------------------+--------+

|1201  | Gopal        | 45000       | Technical manager | TP     |

|1202  | Manisha      | 45000       | Proofreader       | PR     |

|1203  | Masthanvali  | 40000       | Technical writer  | TP     |

|1204  | Krian        | 40000       | Hr Admin          | HR     |

|1205  | Kranthi      | 30000       | Op Admin          | Admin  |

+------+--------------+-------------+-------------------+--------+

下面是使用上述业务情景查询检索员工详细信息：

SELECT * FROM employee ORDER BY DEPT;

成功查询后能得到以下回应：

+------+--------------+-------------+-------------------+--------+

| ID   | Name         | Salary      | Designation       | Dept   |

+------+--------------+-------------+-------------------+--------+

|1205  | Kranthi      | 30000       | Op Admin          | Admin  |

|1204  | Krian        | 40000       | Hr Admin          | HR     |

|1202  | Manisha      | 45000       | Proofreader       | PR     |

|1201  | Gopal        | 45000       | Technical manager | TP     |

|1203  | Masthanvali  | 40000       | Technical writer  | TP     |

+------+--------------+-------------+-------------------+--------+

GROUP BY子句用于分类所有记录结果的特定集合列。它被用来查询一组激励。

如果用来产生一个查询以检索每个部门的员工数量。

+------+--------------+-------------+-------------------+--------+

| ID   | Name         | Salary      | Designation       | Dept   |

+------+--------------+-------------+-------------------+--------+

|1201  | Gopal        | 45000       | Technical manager | TP     |

|1202  | Manisha      | 45000       | Proofreader       | PR     |

|1203  | Masthanvali  | 40000       | Technical writer  | TP     |

|1204  | Krian        | 45000       | Proofreader       | PR     |

|1205  | Kranthi      | 30000       | Op Admin          | Admin  |

+------+--------------+-------------+-------------------+--------+

下面使用上述业务情景查询检索员工的详细信息。

SELECT Dept,count(*) FROM employee GROUP BY DEPT;

返回结果为：

+------+--------------+

| Dept | Count(*)     |

+------+--------------+

|Admin |    1         |

|PR    |    2         |

|TP    |    3         |

+------+--------------+

JOIN是子句用于通过使用共同值组合来自两个表特定字段。它是用来从数据库中两个或更多的表组合的记录。它或多或少类似于SQL JOIN。

示例：

我们将使用下面两个表，CUSTOMERS表

+----+----------+-----+-----------+----------+

| ID | NAME     | AGE | ADDRESS   | SALARY   |

+----+----------+-----+-----------+----------+

| 1  | Ramesh   | 32  | Ahmedabad | 2000.00  |

| 2  | Khilan   | 25  | Delhi     | 1500.00  |

| 3  | kaushik  | 23  | Kota      | 2000.00  |

| 4  | Chaitali | 25  | Mumbai    | 6500.00  |

| 5  | Hardik   | 27  | Bhopal    | 8500.00  |

| 6  | Komal    | 22  | MP        | 4500.00  |

| 7  | Muffy    | 24  | Indore    | 10000.00 |

+----+----------+-----+-----------+----------+

ORDERS表

+-----+---------------------+-------------+--------+

|OID  | DATE                | CUSTOMER_ID | AMOUNT |

+-----+---------------------+-------------+--------+

| 102 | 2009-10-08 00:00:00 |           3 | 3000   |

| 100 | 2009-10-08 00:00:00 |           3 | 1500   |

| 101 | 2009-11-20 00:00:00 |           2 | 1560   |

| 103 | 2008-05-20 00:00:00 |           4 | 2060   |

+-----+---------------------+-------------+--------+

有不同类型的联接给出如下：

JOIN

LEFT OUTER JOIN

RIGHT OUTER JOIN

FULL OUTER JOIN

JOIN子句用于合并和检索来自多个表中的记录。JOIN和SQL OUTER JOIN类似。连接条件是使用主键和表的外键。

下面的查询执行JOIN的CUSTOMER和ORDERS表。并检索记录。

hive> SELECT c.ID, c.NAME, c.AGE, o.AMOUNT FROM CUSTOMERS c JOIN ORDERS o ON (c.ID = o.CUSTOMER_ID);

成功执行查询后，能看到以下回应：

+----+----------+-----+--------+

| ID | NAME     | AGE | AMOUNT |

+----+----------+-----+--------+

| 3  | kaushik  | 23  | 3000   |

| 3  | kaushik  | 23  | 1500   |

| 2  | Khilan   | 25  | 1560   |

| 4  | Chaitali | 25  | 2060   |

+----+----------+-----+--------+

LEFT OUTER JOIN

HiveQL LEFT OUTER JOIN返回所有行左表，即使是在正确的表中没有匹配。这意味着，如果ON子句匹配的右表零记录，JOIN还是返回结果行，但在右表中的每一行为NULL。

LEFT JOIN返回左表中的所有的值，加上右表，或JOIN子句没有匹配的情况下返回NULL。

下面的查询演示了CUSTOMER和ORDERS表之间的LEFT OUTER JOIN用法：

hive > SELECT c.ID, c.NAME, o.AMOUNT, o.DATE FROME CUSTOMERS c LEFT JOIN ORDERS o ON (c.ID = o.CUSTOMER_ID);

成功执行查询后，能看到以下回应：

+----+----------+--------+---------------------+

| ID | NAME     | AMOUNT | DATE                |

+----+----------+--------+---------------------+

| 1  | Ramesh   | NULL   | NULL                |

| 2  | Khilan   | 1560   | 2009-11-20 00:00:00 |

| 3  | kaushik  | 3000   | 2009-10-08 00:00:00 |

| 3  | kaushik  | 1500   | 2009-10-08 00:00:00 |

| 4  | Chaitali | 2060   | 2008-05-20 00:00:00 |

| 5  | Hardik   | NULL   | NULL                |

| 6  | Komal    | NULL   | NULL                |

| 7  | Muffy    | NULL   | NULL                |

+----+----------+--------+---------------------+

RIGHT OUTER JOIN

HiveQL RIGHT OUTER JOIN返回右边表的所有行，即使在左表中没有匹配。如果ON子句的左表匹配零记录，JOIN结果返回一行，但在左表中的每一行为NULL。

RIGHT JOIN返回右表中的所有值，加上左表，或者没有匹配的情况下返回NULL。

下面的查询演示了CUSTOMERS和ODERS表之间使用RIGHT OUTER JOIN。

hive > SELECT c.ID, c.NAME, o.AMOUNT, o.DATE FROM CUSTOMERS c RIGHT OUTER JOIN ORDERS o ON (c.ID = o.CUSTOMER_ID);

成功执行查询后，能看到以下回应：

+------+----------+--------+---------------------+

| ID   | NAME     | AMOUNT | DATE                |

+------+----------+--------+---------------------+

| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 |

| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 |

| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 |

| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 |

+------+----------+--------+---------------------+

FULL OUTER JOIN

HiveQL FULL OUTER JOIN结合了左边，并且满足JOIN条件合适外部表的记录。连接表包含两个表的所有记录，或两侧缺少匹配结果那么使用NULL值填补。

下面的查询演示了CUSTOMERS和ORDERS表之间的FULL OUTER JOIN：

hive > SELCE c.ID, c.NAME, o.AMOUNT, o.DATE FROM CUSTOMERS c FULL OUTER JOIN ODERS o ON (c.ID = o.CUSTOMER_ID);

成功执行查询后，能看到以下回应：

+------+----------+--------+---------------------+

| ID   | NAME     | AMOUNT | DATE                |

+------+----------+--------+---------------------+

| 1    | Ramesh   | NULL   | NULL                |

| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 |

| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 |

| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 |

| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 |

| 5    | Hardik   | NULL   | NULL                |

| 6    | Komal    | NULL   | NULL                |

| 7    | Muffy    | NULL   | NULL                |

| 3    | kaushik  | 3000   | 2009-10-08 00:00:00 |

| 3    | kaushik  | 1500   | 2009-10-08 00:00:00 |

| 2    | Khilan   | 1560   | 2009-11-20 00:00:00 |

| 4    | Chaitali | 2060   | 2008-05-20 00:00:00 |

+------+----------+--------+---------------------+

Hive初识（四）的更多相关文章

[转帖]Hive学习之路（一）Hive初识
Hive学习之路 (一)Hive初识 https://www.cnblogs.com/qingyunzong/p/8707885.html 讨论QQ:1586558083 目录 Hive 简介什么是 ...
Hive学习之路（一）Hive初识
Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive S ...
Hive（一）Hive初识
一 Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 Hadoop 的一个数据仓库工具 3.可以将结构化的数据映射为一张数据库表 4.并提供 HQL(Hive ...
Apache Hive （一）Hive初识
转自:https://www.cnblogs.com/qingyunzong/p/8707885.html Hive 简介什么是Hive 1.Hive 由 Facebook 实现并开源 2.是基于 ...
[Hadoop大数据]——Hive初识
Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想.但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的h ...
Hive（四）Hive的3种连接方式与DbVisualizer连接Hive
一.CLI连接进入到 bin 目录下,直接输入命令: [root@node21 ~]# hive SLF4J: Class path contains multiple SLF4J bindings ...
Hive Tuning(四) 从查询计划看hive.auto.convert.join的好处
今天我们来讲一下如何看懂Hive的查询计划. hive的执行计划包括三部分 – Abstract syntax tree – 可以直接忽略 – Stage dependencies – 依赖 – S ...
Hive（四）hive函数与hive shell
一.hive函数 1.hive内置函数 (1)内容较多,见< Hive 官方文档> https://cwiki.apache.org/confluence/displ ...
hive学习(四) hive的函数
1.内置运算符 1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B 无失败,因为无效的语法. SQL使用”=”,不使用”= ...

随机推荐

生成对抗式网络 GAN的理解
转自:https://zhuanlan.zhihu.com/p/24767059,感谢分享生成式对抗网络(GAN)是近年来大热的深度学习模型.最近正好有空看了这方面的一些论文,跑了一个GAN的代码, ...
SQL Server ->> 在SQL Server中创建ASSEMBLY
首先要把数据库的TRUSTWORTHY属性改为ON ALTER DATABASE [MYDB] SET TRUSTWORTHY ON GO 接下来直接创建ASSEMBLY应该就没问题了.但是往往有可能 ...
UML视频
https://www.bilibili.com/video/av34973179/?p=1 北京圣思园 UML视频
Spring MVC工程无法拦截到url请求
一直没有办法拦截到url的请求,tomcat启动也没有看到Springmvc容器启动的任何说明.所以就建立了一个普通的servlet工程,可以访问url.再重新发布springmvc项目,访问url, ...
XP环境安装request包报错：离线安装packages: certifi urllib3 idna chardet
分别下载 request certifi urllib3 idna chardet 安装包数据包下载地址:https://pypi.org/ 解压到python安装目录使用cmd命令进入..\py ...
SQA和测试
一.SQA计划 (1)软件工程:设计出云医院页面和其功能. (2)质量保证:进行需求分析,使用户确信产品或服务能满足规定的质量要求. (3)质量控制:采取不断的调试完善代码和程序确保产品质量. (4) ...
userdel
功能说明:用于删除指定的用户及该用户相关的文件. 参数选项:-f 强制删除用户,即使用户当前已登录.-r 删除用户的同时,删除与用户相关的所有文件. 说明:尽量不要用userdel删除用户,而是采用在 ...
nutz 结合QueryResult,Record 自定义分页查询,不构建pojo 整合
public QueryResult getHistoryIncome(int d, int curPage) throws Exception { /**sql**/ Sql sql = Sqls. ...
POJ 1379 模拟退火
模拟退火算法,很久之前就写过一篇文章了.双倍经验题(POJ 2420) 题意: 在一个矩形区域内,求一个点的距离到所有点的距离最短的那个,最大. 这个题意,很像二分定义,但是毫无思路,也不能暴力枚举, ...
Codeforces Round #422 (Div. 2)
Codeforces Round #422 (Div. 2) Table of Contents Codeforces Round #422 (Div. 2)Problem A. I'm bored ...

Hive初识（四）

Hive初识（四）的更多相关文章

随机推荐

热门专题