Hive的查询
基本查询
全表和特定列查询
1.全表查询
select * from emp;
2.选择特定列查询
select empno,ename from emp;
注意:
1.SQL语言大小写不敏感
2.SQL可以写在一行或者多行
3.关键字不能被缩写也不能分行
列别名
主要作用:
重命名一个列
便于计算
使用AS关键字为列指定别名
select ename as name from emp;
算术运算符
运算符 | 描述 |
---|---|
A+B | A和B相加 |
A-B | A 减去 B |
A*B | A 和 B 相乘 |
A/B | A 除以 B |
A%B | A 对 B 取余 |
A&B | A 和 B 按位取与 |
A | B |
A^B | A 和 B 按位取异或 |
~A | A 按位取反 |
select sal + 1 as sal from emp;
常用函数
1.求总行数(count)
select count(*) count from emp;
2.求工资的最大值(max)
select max(sal) maxSal from emp;
3.求工资的最小值(min)
select min(sal) minSal from emp;
4.求工资的总和(sum)
select sum(sal) sumSal from emp;
5.求工资的平均值
select avg(sal) avgSal from emp;
limit语句
limit用于限制返回的行数
select * from emp limit 5;
Where语句
where用于过滤不满足条件的数据
查询薪水大于1000的员工
select * from emp where sal > 1000;
比较运算符(Between/in/is null)
操作符 | 支持的数据类型 | 描述 |
---|---|---|
A=B | 基本数据类型 | 如果A=B则返回TRUE,反之返回FALSE |
A<=>B | 基本数据类型 | 如果A,B都为NULL,返回TRUE,其他情况和等号(=)操作符结果一致,如有一方为NULL,则结果为NULL |
A<>B,A!=B | 基本数据类型 | A或者B为NULL返回NULL,如果A不等于B返回TRUE,反之返回FALSE |
A<B | 基本数据类型 | A或者B为NULL,返回NULL,如果A小于B返回TRUE,反之返回FALSE |
A<=B | 基本数据类型 | A或者B为NULL,则返回NULL,如果A小于等于B,返回TRUE反之返回FALSE |
A>B | 基本数据类型 | A 或者 B 为 NULL,则返回 NULL;如果 A 大于 B,则返回 TRUE,反之返回 FALSE |
A>=B | 基本数据类型 | A 或者 B 为 NULL,则返回 NULL;如果 A 大于等于 B,则返回 TRUE,反之返回 FALSE |
A [NOT] BETWEEN B AND C | 基本数据类型 | 如果 A,B 或者 C 任一为 NULL,则结果为NULL。如果 A 的值大于等于 B 而且小于或等于 C,则结果为 TRUE,反之为 FALSE。如果使用 NOT 关键字则可达到相反的效果。 |
A IS NULL | 所有数据类型 | 如果 A 等于 NULL,则返回 TRUE,反之返回FALSE |
A IS NOT NULL | 所有数据类型 | 如果 A 不等于 NULL,则返回 TRUE,反之返回 FALSE |
IN(数值 1, 数值 2) | 所有数据类型 | 使用 IN 运算显示列表中的值 |
A [NOT] LIKE B | STRING 类型 | B 是一个 SQL 下的简单正则表达式,如果 A与其匹配的话,则返回 TRUE;反之返回FALSE。B 的表达式说明如下:‘x%’表示 A 必须以字母‘x’开头,‘%x’表示 A 必须以字母’x’结尾,而‘%x%’表示 A 包含有字母’x’,可以位于开头,结尾或者字符串中间。如果使用 NOT关键字则可达到相反的效果。 |
A RLIKE B, A REGEXP B | STRING 类型 | B 是一个正则表达式,如果 A 与其匹配,则返回TRUE;反之返回FALSE。匹配使用的是JDK中的正则表达式接口实现的,因为正则也依据其中的规则。例如,正则表达式必须和整个字符串 A 相匹配,而不是只需与其字符串匹配。 |
代码示例:
(1)查询出薪水等于5000的所有员工
select * from emp where sal = 5000;
(2)查询工资在500到1000的员工
select * from emp where sal between 500 and 1000;
(3)查询comm为空的所有员工信息
select * from emp where comm is null;
(4)查询工资是1500和5000的员工信息
select * from emp where sal in (1500,5000);
Like和Likes
1.使用LIKE运算选择类似的值
2.选择条件可以包含字符或者数字
%:代表零个或多个字符(任意字符)
_:代表一个字符
3.RLIKE 子句是Hive中的一个扩展,其可以使用Java的正则表达式来指定匹配条件
案例操作
1.查询以2开头薪水的员工信息
select * from emp where sal LIKE '2%';
2.查找第二个数字为2的薪水员工信息
select * from emp where sal LIKE '_2%';
3.查找薪水中含有2的员工信息
select * from emp where sal RLIKE '[2]';
逻辑运算符(And/Or/Not)
操作符 | 含义 |
---|---|
AND | 逻辑并 |
OR | 逻辑或 |
NOT | 逻辑否 |
实例操作:
1.查询薪水大于1000,部门是30的员工
select * from emp where sal > 1000 and deptno = 30
2.查询薪水大于1000,或者部门是30的员工
select * from emp where sal > 1000 or deptno = 30
3.查询除了20部门和30部门以外的员工信息
select * from emp where deptno not in (20,30)
分组
Group By语句
GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。
实例操作:
1.计算emp表每个部门的平均工资
select deptno,avg(sal) from emp group by deptno;
2.计算emp每个部门中每个岗位的最高薪水
select deptno,job,max(sal) from emp group by deptno,job;
Having语句
1.having与where的不同点
a.where针对表中的列发挥作用,查询数据:having针对查询结果中的列发挥作用,筛选数据。
b.where后面不能写分组函数,而having可以使用分组函数
c.having只用于group by分组统计语句
实例操作:
求每个部门的平均薪水大于2000的部门
select deptno,avg(sal) avgSal from emp group by deptno having avgSal > 2000
Join语句
等值Join
Hive 支持通常的 SQL JOIN 语句,但是只支持等值连接,不支持非等值连接
根据员工表和部门表中的部门编号相等,查询员工信息
select e.* from emp e jion dept d on e.deptno = d.deptno
表的别名
1)好处
(1)使用别名可以简化查询。
(2)使用表名前缀可以提高执行效率。
2)案例实操
合并员工表和部门表
hive (default)> select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno =d.deptno;
内连接
内连接:只有进行连续的两个表中都存在与连接条件相匹配的数据才会被保留下来。
select e.* from emp e join dept d on e.deptno = d.deptno
左外连接
左外连接:JOIN操作符左边表符合WHERE子句的所有记录将会被返回。
select * from emp e left join dept d on e.deptno = d.deptno
右外连接
右外连接:JOIN操作符右边表符合WHERE子句的所有记录将会被返回
select * from emp e right join dept d on e.deptno = d.deptno
满外连接
满外连接:将会返回所有表中符合WHERE语句条件的所有记录。如果一表字段没有符合条件的值的话,那么就使用NULL值替代。
select * from emp e full join dept d on e.deptno = d.deptno
多表连接
注意:连接n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个两个条件。
select * from emp e join dept d on e.deptno = d.deptno
join location l on d.loc = l.loc
大多数情况下,HIVE会对每对Join连接对象启动一个MapReduce任务。本例中会首先启动MapReduceJOB对e表和d表进行连接操作,然后在启动一个MapReduceJOB将第一个MapReduceJOB的输出和表L进行连接
为什么不是表d和表l先进行连接操作呢?因为Hive总是按照从左往右的顺序执行的
笛卡尔积
1)笛卡尔集会在下面条件下产生:
(1)省略连接条件
(2)连接条件无效
(3)所有表中的所有行互相连接
2)案例实操
hive (default)> select empno, deptno from emp, dept;
FAILED: SemanticException Column deptno Found in more than One Tables/Subqueries
连接谓词中不支持or
在Join……on 中不支持使用 or 可以在join……on的后面紧跟where语句,然后使用or条件
排序
全局排序(order BY)
全局排序,执行一个MapReduce
使用ORDER BY子句排序
ASC:升序(默认)
DESC:降序
ORDER BY 位于SELECT语句的结尾
查询员工的信息,按薪水降序
select * from emp order sal desc
查询员工信息,按薪水升序
select * from emp order sal asc
按照别名排序
按照员工薪水的 2 倍排序
hive (default)> select ename, sal*2 twosal from emp order by twosal;
多个列排序
按照部门和工资升序排序
hive (default)> select ename, deptno, sal from emp order by deptno, sal ;
每个MapReduce内部排序(Sort By)
Sort By:每个MapReduce内部进行排序,对全局结果集来说不是排序
1.设置reduce个数
set mapreduce.job.reduces=3;
2.查看设置的reduce个数
set mapreduce.job.reduces;
3.根据部门编号降序查看员工信息
select * from emp sort by empno desc;
上述查询语句会执行3个Reduce,其中每个Reduce中的数据是按照指定条件排序的,但是最终的结果是无序的
4.将结果导入到文件中(按照部门编号降序排序)
insert overwrite local directory '/sortby' select * from emp sort by deptno desc;
sort by:执行3个Reduce导出的文件为,每个文件中的数据是有序的。3个Reduce就生成了三个文件
分区排序(Distribute by)
Distribute By:类似MR中partition,进行分区,结合sort by使用
注意:Hive要求Distribute By 语句写在Sort By之前。可以联想Map方法输出到环形缓冲区的中,环形缓冲区对数据就是先分区在排序的。保证每个分区中的数据是有序的。
对于Distribute By 的测试,一定要多分配reduce进行处理,1个是不可以的。否则无法看到Distribute by的效果
先按照部门编号分区,再按照员工编号降序排序。
set mapreduce.job.reduces =3
insert overwrite local direcotry '/opt/dist' select * from emp distribute by deptno sort by empno desc
Cluster By
如果Distribute By 的字段和Sort by的字段相同时候,可以使用Cluster by关键字。(即为当分区依据和分区内排序依据相同时,可以使用Cluster by)
Cluster By除了具有Distribute By的功能外还兼具Sort By的功能。但是排序只能倒序,不能指定ASC,DESC
下面两种写法意义相同:
select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno ;
注意:按照部门编号分区,不一定就是固定死的数值,可以是 20 号和 30 号部门分到一个分区里面去。
分桶和抽样查询
分桶表数据存储
分区针对的是数据的存储路径,分桶针对的是数据文件。
分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可以形成合理的分区,特别是之前所提到过的药确定合适的划分大小这个疑虑。
分桶是将数据集分解成更容易管理的若干部分的另一个技术。
创建分桶表:
create table stu_buck(id int, name string)
clustered by(id)
into 4 buckets
row format delimited fields terminated by '\t';
查看表结构
desc formatted stu_buck;
导入数据到分桶表中
load data local inpath '/opt/module/datas/student.txt' into table stu_buck;
查看HDFS文件上的分桶表文件是否分成了4个桶、
我们发现文件并没有分成4个桶。
通过子查询的方式导入数据:
创建普通表
create table stu(id int,name string)
row format delimited fields terminated by '\t';
导入数据到普通表中
load data local inpath '\opt\data\stu.txt' into table stu;
清空stu_buck表
truncate table stu_buck;
select * from stu_buck;
导入数据,通过子查询的方式
insert into stu_buck select id,name from stu cluster by (id);
再次查看,发现还是一个桶。
分桶为什么没有成功?
需要修改一个属性:
set hive.enforce.bucketing=true
set mapreduce.job.reduces=-1;
insert into table stu_buck
select id,name from stu cluster by (id)
再次查看HDFS就形成了分桶文件
查询分桶数据
select * from stu_buck
分桶抽样查询
对于非常大的数据集,有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。
Hive 可以通过对表进行抽样来满足这个需求。
查询表 stu_buck 中的数据。
hive (default)> select * from stu_buck tablesample(bucket 1 out of 4 on id);
注:tablesample 是抽样语句,语法:TABLESAMPLE(BUCKET x OUT OF y) 。y 必须是 table 总 bucket 数的倍数或者因子。
hive 根据 y 的大小,决定抽样的比例。
例如,table 总共分了 4 份,当 y=2 时,抽取(4/2=)2 个 bucket 的数据,
当 y=8 时,抽取(4/8=)1/2个 bucket 的数据
x 表示从哪个 bucket 开始抽取。
例如,table 总 bucket 数为 4,tablesample(bucket 4 out of4),表示总共抽取(4/4=)1 个 bucket 的数据,
抽取第 4 个 bucket 的数据。
注意:
x 的值必须小于等于 y 的值,否则
FAILED: SemanticException [Error 10061]: Numerator should not be bigger than
denominator in sample clause for table stu_buck
数据块抽样
Hive 提供了另外一种按照百分比进行抽样的方式,这种是基于行数的,按照输入路径下的数据块百分比进行的抽样。
hive (default)> select * from stu tablesample(0.1 percent) ;
提示:这种抽样方式不一定适用于所有的文件格式。另外,这种抽样的最小抽样单元是一个 HDFS 数据块。因此,如果表的数据大小小于普通的块大小 128M 的话,那么将会返回所有行。
本博客仅为博主学习总结,感谢各大网络平台的资料。蟹蟹!!
Hive的查询的更多相关文章
- HIVE中查询FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Communications link failure
有一天早上到公司用hive中查询数据,发现报错不能连接.通过检查发现mysql服务器没有启动,开启mysql服务器后查询正常.
- Hive sql 查询数据库查询 top-n
数据库查询*分组排序取top n要求:按照课程分组,查找每个课程最高的两个成绩. 数据文件如下: 第一列no为学号,第二列course为课程,第三列score为分数 mysql> select ...
- Hive 的查询结果直接导入到 MySQL 中的方法
步骤一: hive> add jar /setup/hive/lib/mysql-connector-java-5.1.25-bin.jar; hive> add jar /usr/lib ...
- hive表查询中文显示乱码
hive在查询表信息时,中文显示乱码,数字或者url显现null问题解决思路. 1.确定create hive表时指定的row format delimited fields terminated b ...
- Hive基础之Hive开启查询列名及行转列显示
Hive默认情况下查询结果里面是只显示值: hive> select * from click_log; OK ad_101 :: ad_102 :: ad_103 :: ad_104 :: a ...
- Hive通过查询语句向表中插入数据注意事项
最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug.总而言之,这些都需要使用Hive的开发人员额 ...
- hive 子查询特别分析
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 确认下是否一定要求列必须唯一? 建表语句 ...
- hive导出查询文件到本地文件的2种办法
通过HQL语句 可以将hive 中表的数据生成到指定的目录. 有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的) 方法有如下2种: 1.INSERT OVERWRITE LOCAL ...
- Hive:子查询
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...
- hive的查询注意事项以及优化总结 .
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具.使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数 ...
随机推荐
- DHTMLEdit控件的安装
xp中自带了DHTMLEdit.ocx, 所以只需安装即可 但是可视化设计面板中没有这个控件,需要我们手动安装一下 具体方式: [import AcitveX control 在控件板上的安装]一. ...
- Delphi xe5调用外部扫描程序——谷歌 zxing
unit uZXing; interface uses System.SysUtils, System.Types, System.UITypes, System.Classes, System.Va ...
- windows下进程间通信的(13种方法)
转自:http://blog.csdn.NET/shiqz/article/details/5862936 摘 要 随着人们对应用程序的要求越来越高,单进程应用在许多场合已不能满足人们的要求.编写多进 ...
- Oracle 裁掉北京研发团队,相应职位撤回美国(收购了NetSuite,LogFire,Dyn)
根据中国日报报道,2017年1月14日上午9点09分,甲骨文北京研发团队的同事收到了来自BU老大的一封邮件.邮件上提及,由于市场变化,甲骨文开始整合各研发中心资源公司在云计算方向发力,文末单独提出了甲 ...
- HTML连载7-表单练习
昨天因为晚上有事情,未更新,但是今天中午发也不晚,因为是同一天只是时间早晚而已,因此今日傍晚还将更新一次,废话不多说. 1.表单的综合练习,我们要创建一个综合的注册页面.运用到我们前面所学的所有知识. ...
- centos安装最新版MySQL 8.0教程
这篇教程是通过yum方式安装的 安装依赖 yum install libaio wget -y 检查MYSQL是否已安装 yum list installed | grep mysql 如果有先卸载 ...
- 在 Windows 中编译 Github 中的 GO 项目
1.相关软件与环境准备 1.1 GO 安装 下载地址,https://studygolang.com/dl,选择 Windows 版,本文安装到 D:\Go 1.2 LiteIDE 安装 下载地址,h ...
- Storm 学习之路(七)—— Storm集成 Redis 详解
一.简介 Storm-Redis提供了Storm与Redis的集成支持,你只需要引入对应的依赖即可使用: <dependency> <groupId>org.apache.st ...
- ABP开发框架前后端开发系列---(13)高级查询功能及界面的处理
在一般的检索界面中,基于界面易用和美观方便的考虑,我们往往只提供一些常用的条件查询进行列表数据的查询,但是有时候一些业务表字段很多,一些不常见的条件可能在某些场景下也需要用到.因此我们在通用的查询条件 ...
- 重磅发布:阿里开源 OpenJDK 长期支持版本 Alibaba Dragonwell
原文地址:https://yq.aliyun.com/articles/694603 本文作者:阿里开源 本文来自云栖社区合作伙伴"阿里系统软件技术",了解相关信息可以关注&qu ...