hive基础知识三
1. 基本查询
注意
SQL 语言大小写不敏感
SQL 可以写在一行或者多行
关键字不能被缩写,也不能分行
各子句一般要分行写
使用缩进提高语句的可读性
1.1 全表和特定列查询
全表查询
select * from student;
选择特定列查询
select empno, ename from emp;
1.2 列起别名
重命名一个列
紧跟列名,也可以在列名和别名之间加入关键字 ‘as’
案例实操
select ename AS name, deptno dn from emp;
1.3 常用函数
1.求总行数(count)
select count(*) cnt from emp;
2、求工资的最大值(max)
select max(sal) max_sal from emp;
3、求工资的最小值(min)
select min(sal) min_sal from emp;
4、求工资的总和(sum)
select sum(sal) sum_sal from emp;
5、求工资的平均值(avg)
select avg(sal) avg_sal from emp;
1.4 limit 语句
典型的查询会返回多行数据。limit子句用于限制返回的行数。
select * from emp limit 5;
1.5 where 语句
1、使用 where 子句,将不满足条件的行过滤掉
2、where 子句紧随from子句
3、案例实操
select * from emp where sal >1000;
1.6 算术运算符
运算符 | 描述 |
---|---|
A+B | A和B 相加 |
A-B | A减去B |
A*B | A和B 相乘 |
A/B | A除以B |
A%B | A对B取余 |
A&B | A和B按位取与 |
A|B | A和B按位取或 |
A^B | A和B按位取异或 |
~A | A按位取反 |
1.7 比较运算符
操作符 | 支持的数据类型 | 描述 |
A=B | 基本数据类型 | 如果A等于B则返回true,反之返回false |
A<=>B | 基本数据类型 | 如果A和B都为NULL,则返回true,其他的和等号(=)操作符的结果一致,如果任一为NULL则结果为false |
A<>B, A!=B | 基本数据类型 | A或者B为NULL则返回NULL;如果A不等于B,则返回true,反之返回false |
A<B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于B,则返回true,反之返回false |
A<=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A小于等于B,则返回true,反之返回false |
A>B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于B,则返回true,反之返回false |
A>=B | 基本数据类型 | A或者B为NULL,则返回NULL;如果A大于等于B,则返回true,反之返回false |
A [NOT] BETWEEN B AND C | 基本数据类型 | 如果A,B或者C任一为NULL,则结果为NULL。如果A的值大于等于B而且小于或等于C,则结果为true,反之为false。如果使用NOT关键字则可达到相反的效果。 |
A IS NULL | 所有数据类型 | 如果A等于NULL,则返回true,反之返回false |
A IS NOT NULL | 所有数据类型 | 如果A不等于NULL,则返回true,反之返回false |
IN(数值1, 数值2) | 所有数据类型 | 使用 IN运算显示列表中的值 |
A [NOT] LIKE B | STRING 类型 | B是一个SQL下的简单正则表达式,如果A与其匹配的话,则返回true;反之返回false。B的表达式说明如下:‘x%’表示A必须以字母‘x’开头,‘%x’表示A必须以字母’x’结尾,而‘%x%’表示A包含有字母’x’,可以位于开头,结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。like不是正则,而是通配符 |
A RLIKE B, A REGEXP B | STRING 类型 | B是一个正则表达式,如果A与其匹配,则返回true;反之返回false。匹配使用的是JDK中的正则表达式接口实现的,因为正则也依据其中的规则。例如,正则表达式必须和整个字符串A相匹配,而不是只需与其字符串匹配。 |
1.8 逻辑运算符
操作符 | 操作 | 描述 |
A AND B | 逻辑并 | 如果A和B都是true则为true,否则false |
A OR B | 逻辑或 | 如果A或B或两者都是true则为true,否则false |
NOT A | 逻辑否 | 如果A为false则为true,否则false |
2. 分组
2.1 Group By 语句
Group By 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。
案例实操:
(1)计算emp表每个部门的平均工资
select t.deptno, avg(t.sal) as avg_sal from emp t group by t.deptno;
(2)计算emp每个部门中每个岗位的最高薪水
select t.deptno, t.job, max(t.sal) as max_sal from emp t group by t.deptno, t.job;
2.2 Having语句
having 与 where 不同点
where针对表中的列发挥作用,查询数据;having针对查询结果中的列发挥作用,筛选数据
where后面不能写分组函数,而having后面可以使用分组函数
having只用于group by分组统计语句
案例实操
求每个部门的平均工资
select deptno, avg(sal) from emp group by deptno;
求每个部门的平均薪水大于2000的部门
select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;
3. join语句
3.1 等值 join
Hive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。
案例实操
根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;
select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;
3.2 表的别名
好处
使用别名可以简化查询。
使用表名前缀可以提高执行效率。
案例实操
合并老师与课程表
select * from teacher t join course c on t.id = c.id;
数据准备:
create table teacher
(
id string,
tname string
)row format delimited
fields terminated by ',';
--teacher.txt 数据
1,吕布
2,关羽
3,刘备
4,赵云
5,曹操 create table course
(
cid string,
cname string,
id string
)row format delimited
fields terminated by ',';
--course.txt 数据
11,语文,1
22,数学,2
33,英语,3
44,物理,4
55,大数据,6
3.3 内连接 inner join
内连接:只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
join默认是inner join
案例实操
select * from teacher t inner join course c on t.id = c.id;
--查询结果:
+-------+----------+--------+----------+-------+--+
| t.id | t.tname | c.cid | c.cname | c.id |
+-------+----------+--------+----------+-------+--+
| 1 | 吕布 | 11 | 语文 | 1 |
| 2 | 关羽 | 22 | 数学 | 2 |
| 3 | 刘备 | 33 | 英语 | 3 |
| 4 | 赵云 | 44 | 物理 | 4 |
+-------+----------+--------+----------+-------+--+
3.4 左外连接 left outer join
左外连接:join操作符左边表中符合where子句的所有记录将会被返回。
案例实操
查询老师对应的课程
select * from teacher t left outer join course c on t.id = c.id;
-----查询结果:
+-------+----------+--------+----------+-------+--+
| t.id | t.tname | c.cid | c.cname | c.id |
+-------+----------+--------+----------+-------+--+
| 1 | 吕布 | 11 | 语文 | 1 |
| 2 | 关羽 | 22 | 数学 | 2 |
| 3 | 刘备 | 33 | 英语 | 3 |
| 4 | 赵云 | 44 | 物理 | 4 |
| 5 | 曹操 | NULL | NULL | NULL |
+-------+----------+--------+----------+-------+--+
3.5 右外连接 right outer join
右外连接:join操作符右边表中符合where子句的所有记录将会被返回。
案例实操
select * from teacher t right outer join course c on t.id = c.id;
-----查询结果:
+-------+----------+--------+----------+-------+--+
| t.id | t.tname | c.cid | c.cname | c.id |
+-------+----------+--------+----------+-------+--+
| 1 | 吕布 | 11 | 语文 | 1 |
| 2 | 关羽 | 22 | 数学 | 2 |
| 3 | 刘备 | 33 | 英语 | 3 |
| 4 | 赵云 | 44 | 物理 | 4 |
| NULL | NULL | 55 | 大数据 | 6 |
+-------+----------+--------+----------+-------+--+
3.6 满外连接 full outer join
满外连接:将会返回所有表中符合where语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用null值替代。
案例实操
select * from teacher t full outer join course c on t.id = c.id;
-----查询结果:
+-------+----------+--------+----------+-------+--+
| t.id | t.tname | c.cid | c.cname | c.id |
+-------+----------+--------+----------+-------+--+
| 1 | 吕布 | 11 | 语文 | 1 |
| 2 | 关羽 | 22 | 数学 | 2 |
| 3 | 刘备 | 33 | 英语 | 3 |
| 4 | 赵云 | 44 | 物理 | 4 |
| 5 | 曹操 | NULL | NULL | NULL |
| NULL | NULL | 55 | 大数据 | 6 |
+-------+----------+--------+----------+-------+--+
3.7 多表连接
多个表使用join进行连接
注意:连接 n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个连接条件。
案例实操
多表连接查询,查询老师对应的课程,以及对应的分数,对应的学生
select * from
teacher t left join course c on t.id = c.id
left join score s on s.sid = c.cid
left join student stu on s.s_id = stu.s_id;
4. 排序
4.1 order by 全局排序
order by 说明
全局排序,只有一个reduce
使用 ORDER BY 子句排序
asc ( ascend)
升序 (默认)
desc (descend)
降序
order by 子句在select语句的结尾
案例实操
查询学生的成绩,并按照分数降序排列
select * from student s order by score desc ;
4.2 按照别名排序
按照学生分数的平均值排序
select s.sid,s.tname, avg(score) as score_avg from student s group by s.sid,s.tname order by score_avg desc;
4.3 多个列排序
按照学生分数和年龄升序排序
select * from student s order by score,age;
4.4 每个MapReduce内部排序(Sort By)局部排序
sort by:每个reducer内部进行排序,对全局结果集来说不是排序。
1、设置reduce个数
set mapreduce.job.reduces=3;
2、查看设置reduce个数
set mapreduce.job.reduces;
3、查询成绩按照成绩降序排列
select * from student s sort by s.score;
4、将查询结果导入到文件中(按照成绩降序排列)
insert overwrite local directory '/home/hadoop/hivedata/sort' select * from student s sort by s.score;
4.5 distribute by 分区排序
distribute by:类似MR中partition,采集hash算法,在map端将查询的结果中hash值相同的结果分发到对应的reduce文件中。结合sort by使用。
注意
Hive要求 distribute by 语句要写在 sort by 语句之前。
案例实操
先按照学生 sid 进行分区,再按照学生成绩进行排序
设置reduce的个数
set mapreduce.job.reduces=3;
通过distribute by 进行数据的分区,,将不同的sid 划分到对应的reduce当中去
insert overwrite local directory '/home/hadoop/hivedata/distribute' select * from student distribute by sid sort by score;
4.6 cluster by
当distribute by和sort by字段相同时,可以使用cluster by方式
除了distribute by 的功能外,还会对该字段进行排序,所以cluster by = distribute by + sort by
--以下两种写法等价
insert overwrite local directory '/home/hadoop/hivedata/distribute_sort'
select * from student distribute by score sort by score;
insert overwrite local directory '/home/hadoop/hivedata/cluster'
select * from student cluster by score;
5、case...when...then
5.1 case ... when ... then 语句
case ...when ..then 语句和if 条件语句类似,用于处理单个列的查询结果
案例实战
创建表
create table employee(
empid int,
deptid int,
sex string,
salary double
)row format delimited
fields terminated by '\t';数据文件 employee.txt
1 10 female 5500.0
2 10 male 4500.0
3 20 female 1900.0
4 20 male 4800.0
5 40 female 6500.0
6 40 female 14500.0
7 40 male 44500.0
8 50 male 6500.0
9 50 male 7500.0查询统计
将员工按照性别打上标识
select *,
case sex
when "female" then 1
when "male" then 0
end as flag
from employee;将员工按照薪资待遇划分等级
select *,
case
when salary < 5000 then "低等收入"
when salary>= 5000 and salary < 10000 then "中等收入"
when salary > 10000 then "高等收入"
end as level
from employee;
5.2 row_number()使用
###################### 统计每个部门薪资最高的员工信息 #####################
select *, row_number() over(distribute by deptid sort by salary desc ) rn from employee; ##统计结果
1 10 female 5500.0 1
2 10 male 4500.0 2
4 20 male 4800.0 1
3 20 female 1900.0 2
7 40 male 44500.0 1
6 40 female 14500.0 2
5 40 female 6500.0 3
9 50 male 7500.0 1
8 50 male 6500.0 2
5.2 什么情况下Hive可以避免进行MapReduce
hive 为了执行效率考虑,简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs目录中的文件进行filter过滤。也就是所谓的本地模式。
1、直接查询表的数据,不会进行Mapreduce
select * from employee;
2、查询语句中的过滤条件只是分区字段的情况下,不会进行Mapreduce。
select * from order_partition where month='2019-03';
此外,如果设置属性 set hive.exec.mode.local.auto=true; hive还是会尝试使用本地模式。
hive基础知识三的更多相关文章
- 《Programming Hive》读书笔记(两)Hive基础知识
<Programming Hive>读书笔记(两)Hive基础知识 :第一遍读是浏览.建立知识索引,由于有些知识不一定能用到,知道就好.感兴趣的部分能够多研究. 以后用的时候再具体看.并结 ...
- java 基础知识三 java变量
java 基础知识 三 变量 1.作用域 {} 包围起来的代码 称之为代码块,在块中声明的变量只能在块中使用 2.常量 就是固定不变的量,一旦被定义,它的值就不能再被改变. 3.变量 变量必须在程序 ...
- Python基础知识(三)
Python基础知识(三) 一丶整型 #二进制转成十进制的方法 # 128 64 32 16 8 4 2 1 1 1 1 1 1 1 例如数字5 : 101 #十进制转成二进制的方法 递归除取余数,从 ...
- C# 基础知识 (三).主子对话框数值传递
在C# winform编程中,我们经常会遇到不同窗口间需要传递数值的问题.比如数据库的应用,主窗口填写内容num1,点击按钮,在弹出的子窗口显示对应num1值;或者在子窗口填写新注册用户名信息,在主窗 ...
- 快速掌握JavaScript面试基础知识(三)
译者按: 总结了大量JavaScript基本知识点,很有用! 原文: The Definitive JavaScript Handbook for your next developer interv ...
- Dapper基础知识三
在下刚毕业工作,之前实习有用到Dapper?这几天新项目想用上Dapper,在下比较菜鸟,这块只是个人对Dapper的一种总结. Dapper,当项目在开发的时候,在没有必要使用依赖注入的时候,如何做 ...
- Hive基础知识梳理
Hive简介 Hive是什么 Hive是构建在Hadoop之上的数据仓库平台. Hive是一个SQL解析引擎,将SQL转译成MapReduce程序并在Hadoop上运行. Hive是HDFS的一个文件 ...
- Hive基础知识
一.产生背景 1.MapReudce编程繁琐,需要编写大量的代码 2.HDFS中存放的都是文件,在HDFS中没有Scheme的概念,无法用SQL进行快速的查询. 二.Hive的概念 Hive是基于Ha ...
- Java的基础知识三
一.Java 集合框架 集合框架是一个用来代表和操纵集合的统一架构.所有的集合框架都包含如下内容: 接口:是代表集合的抽象数据类型.接口允许集合独立操纵其代表的细节.在面向对象的语言,接口通常形成一个 ...
随机推荐
- linux权限管理(chown、chgrp、chomd)
一.文件权限 我们以/etc/passwd 文件为例,用ll长列出其属性如下所示 ll /etc/passwd 每个文件针对每类访问访问者都定义了三种权限 文件类型中: p:表示命名管道文件 d:表示 ...
- mysql 中 and和or 一起使用和之间的优先级
SELECT address,job_title,education,SUM(recruiting) FROM commerce_jobs WHERE education = '大专' and ( j ...
- 关于C#对Xml数据解析
首先进行简单说明Xml 与Html 和 XAML数据标签的差别. 1.Xml属于数据文本, 被设计为传输和存储数据,其焦点是数据的内容.它与json格式数据相似,可作为服务数据传输类型. 其中XML ...
- Django---Django中使用COOKIE和SESSION
Django---Django中使用COOKIE和SESSION 一丶Cookie cookie的由来 # HTTP协议是无状态的. # 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请 ...
- JAVA 架构和技术框架百科
YApi 是高效.易用.功能强大的 api 管理平台,旨在为开发.产品.测试人员提供更优雅的接口管理服务.可以帮助开发者轻松创建.发布.维护 API,YApi 还为用户提供了优秀的交互体验,开发人员只 ...
- Es查询工具使用
Kibana按照索引过滤数据 1.创建索引模式 2.查询索引中的数据 Es查询不返回数据 创建索引的时候指定mapping mappings={ "mappings": { &qu ...
- Apache Hive
1.Hive简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 本质是将SQL转换为MapReduce程序. 主要用途:操作接口采用 ...
- pythonic-迭代器函数-itertools
认识 Python 的itertools模块提供了很多节省内存的高效迭代器, 尤其解决了一些关于数据量太大而导致内存溢出(outofmemory)的场景. 我们平时用的循环绝大多数是这样的. # wh ...
- java虚拟机类加载机制和双亲委派模型
java虚拟机类加载机制:虚拟机把描述类的数据从class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的java类型. 类的生命周期是从类被加载到虚拟机内存中,到卸 ...
- python-gitlab 之更改 merge_method
参考: https://docs.gitlab.com/ee/api/projects.html https://python-gitlab.readthedocs.io/en/stable/gl_o ...