Hive 数据类型及操作数据库

3. Hive 数据类型

3.1 基本数据类型

Hive 数据类型	Java 数据类型	长度
TINYINT	byte	1 byte 有符号整数
SMALINT	short	2 byte 有符号整数
INT	int	4 byte 有符号整数
BIGINT	long	8 byte 有符号整数
FLOAT	float	单精度浮点数
DOUBLE	double	双精度浮点数
STRING	string	字符系列, 可以使用单引号或双引号
TIMESTAMP		时间类型
BINARY		字节数组

3.2 集合数据类型

Hive 数据类型	描述	语法示例
STRUCT	类似于C语言的struct
MAP	map
ARRAY	数组

// 原始数据: complicated.txt

zhangsan,lisi_wangwu,xiao zhang:20_zhangfei:22,zhong guan cun_beijing

// 创建表语句

create table studentInfo(

    name string,

    friends array<string>,

    children map<string, int>,

    address struct<street:string, city:string>

)

row format delimited

fields terminated by ','

collection items terminated by '_'

map keys terminated by ':'

lines terminated by '\n';

// 查询语句

select friends[1],children['wangwu'],address.street from studentInfo;

4. DDL 数据定义

4.1 创建数据库

创建数据库: create database if not exists db_hive;

4.2 查询数据库

显示数据库: show databases;
筛选数据库: show databases like '条件';
查看数据库信息: desc database db_hive;
查看数据库详细信息: desc database extended db_hive;

4.3 修改数据库

增加属性: alter database db_hive set dbproperties('CTtime'='2019-06-21');

4.4 删除数据库

删除空数据库: drop database db_hive;
删除非空数据库: drop database db_hive cascade;

4.5 创建表

4.5.1 管理表(内部表, MANAGED_TABLE)

使用另外一张表的结构和数据: create table student001 as select * from student;
仅使用另外一张表的结构: create table student001 like student;
查看表信息: desc student;
查看内部表(外部表)信息: desc formatted student;

4.5.2 外部表(EXTERNAL_TABLE)

Hive 并未完全拥有这份数据。删除外部表并不会删除掉这份数据,但是描述表的元数据信息会被删除掉。
创建外部表: create external table dept(deptid int, dname string, loc int) row format delimited fields terminated by '\t';
创建外部表: create external table if not exists default.emp(empno int, ename string, job string, mgr int, hiredate string, sal double, comm double, deptno int) row format delimited fields terminated by '\t';

// 原始数据:dept.txt

10  ACCOUNTING  1700

20  RESEARCH    1800

30  SALES   1900

40  OPERATIONS  1700

// 原始数据: emp.txt

7369    SMITH   CLERK   7902    1980-12-17  800.00  20

7499    ALLEN   SALESMAN   7698    1981-2-20  1600.00   300.00  30

7521    WARD   SALESMAN   7698    1981-2-22  1250.00    500.00  30

7566    JONES   MANAGER   7839    1981-4-2  2975.00  20

7654    MARTIN   SALESMAN   7698    1981-9-28  1250.00  1400.00  30

7698    BLAKE   MANAGER   7839    1981-5-1  2850.00  30

7782    CLARK   MANAGER   7839    1981-6-9  2450.00  10

7788    SCOTT   ANALYST   7566    1987-4-19  3000.00  20

7839    KING   PRESIDENT    1981-11-17  5000.00  10

7844    TURNER   SALESMAN   7698    1981-9-8  1500.00   0.00  30

7876    ADAMS   CLERK   7788    1987-5-23   1100.00  20

7900    JAMES   CLERK   7698    1981-12-3  950.00  30

7902    FORD   ANALYST   7566    1981-12-3  3000.00  20

7934    MILLER   CLERK   7782    1982-1-23  1300.00  10

4.5.3 管理表与外部表的相互转换

假如"student002"为外部表,更改为内部表: alter table student002 set tblproperties('EXTERNAL'='FALSE');
修改内部表为外部表: alter table student002 set tblproperties('EXTERNAL'='TRUE');
注意: ('EXTERNAL'='TRUE') 和 ('EXTERNAL'='FALSE') 为固定写法,区分大小写!

4.6 分区表

Hive 中的分区就是分目录。分区表对应 HDFS 文件系统上的独立文件夹。在查询时,通过 WHERE 子句中的表达式选择查询所需要的指定分区,可以提高查询效率。

4.6.1 分区表基本操作

需求: 根据日期对日志进行管理;
创建分区表: create table stu_patition(id int, name string) partitioned by (month string) row format delimited fields terminated by '\t';
加载数据: locad data local inpath '文件路径' into table stu_partition partition(month="20190618");
查询分区表: select * from stu_partition where month="20190618";
添加多个分区: alter table stu_partition add partition(month="20190619") partition(month="20190620");
删除一个分区: alter table stu_partition drop partition(month="20190620");
删除多个分区: alter table stu_partition drop partition(month="20190620"),partition(month="20190621");

4.6.2 分区表注意事项

创建二级分区表: create table stu_patition(id int, name string) partitioned by (month string, day string) row format delimited fields terminated by '\t';
加载数据: locad data local inpath '文件路径' into table stu_partition partition(month="201906",day="18");

4.6.3 将上传数据与分区表关联

第一种方式:
- 使用HDFS创建目录数据: dfs -mkdir -p /user/hive/warehouse/stu_partition/month=20190719;
- 使用HDFS上传数据: dfs -put 本地文件路径/student.txt /user/hive/warehouse/stu_partition/month=20190719;
- 执行修复命令: msck repair table stu_partition;
第二种方式:
- 使用HDFS创建目录数据: dfs -mkdir -p /user/hive/warehouse/stu_partition/month=20190720;
- 使用HDFS上传数据: dfs -put 本地文件路径/student.txt /user/hive/warehouse/stu_partition/month=20190720;
- 执行修复命令: alter table stu_partition add partition(month="20190720");

4.7 修改表

重命名表: alter table 原始表名 rename to 新表名;
重命名列: alter table student001 change column 原列名新列名列类型;
添加多列: alter table student001 add columns (gender string, description string);

5. DML 数据操作

5.1 数据导入

向表中装载数据(Load): load data [local] inpath '文件路径' overwrite | into table student [partition(partcol1=val1, ....)]
- "load data": 表示加载数据;
- "local": 表示从本地加载数据到Hive表,否则从HDFS加载数据到Hive表;
- "inpath": 表示加载数据的路径;
- "overwrite": 表示覆盖表中已有数据,否则表示追加;
- "into table": 表示加载到哪张表;
- "student": 表示具体的表;
- "partition": 表示上传到指定分区;
通过查询语句向表中插入数据(Insert)
- 根据单张表查询结果,插入数据:insert into table 表名 partition(month=20190617) select * from student;
- 根据多张表查询结果,插入数据:
根据查询结果创建表: create table if not exists student003 as select id, name from student;

5.1.1 创建表时通过 Location 指定加载数据路径

创建表时,指定在 HDFS 上的位置: create table if not exists student006(id int, name string) row format delimited fields terminated by '\t' location '/user/hive/warehouse/student007';
上传数据到 HDFS 上: hadoop fs -put 本地路径 /user/hive/warehouse/student007;
查询数据: select * from student006;

5.2 数据导出

5.2.1 Insert 导出

将查询的结果导出到本地: insert overwrite local directory '本地路径' select * from student;
将查询的结果格式化导出到本地: insert overwrite local directory '本地路径' row format delimited fields terminated by '\t' select * from student;

5.2.2 Hadoop 命令导出到本地

dfs -get /user/hive/warehouse/student/month=201709/student.txt 本地路径;

5.2.3 Hive Shell 命令导出

bin/hive -e 'select * from default.student;' > 本地路径;

5.2.4 Export 导出到 HDFS 上

export table default.student to '/user/hive/warehouse/export/student;'

5.2.5 Import 数据到指定 Hive 表中

先用 EXPORT 导出后,再将数据导入;
import table student2 partition(month='201907') from '/user/hive/warehouse/export/student';

5.3 清除表中数据

truncate table student;

Hive 数据类型及操作数据库的更多相关文章

iOS 数据储存--SQLite 操作数据库-FMDB，sqlite数据类型，保存图片，demo
1.SQLite 语句中数据类型的储存 /* 不区分大小写 char(长度).字符串 NULL. 空值 INTEGER. 整型 REAL.浮点型 TEXT.文本类型 BLOB. 二进制类型,用来存储 ...
缓存数据库-redis数据类型和操作（list)
转: 狼来的日子里! 奋发博取缓存数据库-redis数据类型和操作(list) 一:Redis 列表(List) Redis列表是简单的字符串列表,按照插入顺序排序.你可以添加一个元素导列表的头部( ...
Hive配置与操作实践
Hive配置与操作实践 @(Hadoop) 安装hive hive的安装十分简单,只需要在一台服务器上部署即可. 上传hive安装包,解压缩,将其配入环境变量. mysql的设置在要作为元数据库的m ...
Hive 数据类型 + Hive sql
Hive 数据类型 + Hive sql 基本类型整型 int tinyint (byte) smallint(short) bigint(long) 浮点型 float double 布尔 boo ...
第3章 Hive数据类型
第3章 Hive数据类型 3.1 基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB ...
python高级之操作数据库
python高级之操作数据库本节内容 pymysql介绍及安装使用pymysql执行sql 获取新建数据自增ID fetch数据类型设置 1.pymysql介绍及安装在python2中连接数据库 ...
pymysql 操作数据库
一.简介 pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb几乎相同,但目前pymysql支持python3.x而后者不支持3.x版本其执行语句与sql源码相似二.使用 ...
SQL Server中的Image数据类型的操作
原文:SQL Server中的Image数据类型的操作准备工作,在库Im_Test中建立一张表Im_Info,此表中有两个字段,分别为Pr_Id (INT),Pr_Info (IMAGE),用来存储 ...
JDBC（用Eclipse操作数据库Oracle）的基础操作集合
JDBC: JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编 ...

随机推荐

Linux文件系统属性权限chattr与lsattr命令
有时候你发现用root权限都不能修改某个文件,大部分原因是曾经用chattr命令锁定该文件了.chattr命令的作用很大,其中一些功能是由Linux内核版本来支持的,不过现在生产绝大部分跑的linux ...
[TJOI2013]松鼠聚会曼哈顿距离
[TJOI2013]松鼠聚会 luogu P3964 首先容易得到两点间距离是$max(|x_1-x_2|, |y_1-y_2|)$(即切比雪夫距离) 然后有个套路:原$(x,y)$求曼哈顿距 ...
爬虫（十）：scrapy命令行详解
建爬虫项目 scrapy startproject 项目名例子如下: localhost:spider zhaofan$ scrapy startproject test1 New Scrapy pr ...
Other-Website-Contents.md
title: 本站目录 categories: Other sticky: 10 toc: true keywords: 机器学习基础深度学习基础人工智能数学知识机器学习入门 date: 999 ...
Centos 如何扩充/增加磁盘
1:使用背景废话不多说,磁盘空间不足,增加磁盘,然后扩充现有不足空间磁盘. 本次以Vmware进行测验. 2:我们本次要增加的就是这个 3:我们先添加一个磁盘,20G,添加过程不在赘述 4:添加完成 ...
git submodule subtree常用指令
submodule 官方文档添加 git submodule add -b master git@git.xxx:xxx/xxx.git src/xxx 删除 git submodule deini ...
Ubuntu 14.04 indigo 安装 cartographer 1.0.0
安装依赖(cmake 版本为2.8,我的是自带的)sudo apt-get updatesudo apt-get install -y g++ git google-mock libboost-all ...
mysql my.cnf文件
一.mysqld组值设置: 1.user = mysql #启动mysql的用户.2.pid-file = /var/run/mysqld/mysqld.pid #指定pid文件.3.socket = ...
【hadoop环境问题】namenode无法启动问题解决
[问题背景] 要在自己的阿里云上搭伪分布式,用来复习和强化hive相关的知识,在执行脚本 sh start-dfs.sh后,jps后: 然后查看name的日志,报错如下: [解决方法] 网上的很多方法 ...
python3.6+pycharm+robotframework 环境搭建
参考文档:https://www.cnblogs.com/chenyuebai/p/8359577.html, https://www.cnblogs.com/jiyanjiao-702521/p/9 ...

Hive 数据类型及操作数据库

3. Hive 数据类型

3.1 基本数据类型

3.2 集合数据类型

4. DDL 数据定义

4.1 创建数据库

4.2 查询数据库

4.3 修改数据库

4.4 删除数据库

4.5 创建表

4.5.1 管理表(内部表, MANAGED_TABLE)

4.5.2 外部表(EXTERNAL_TABLE)

4.5.3 管理表与外部表的相互转换

4.6 分区表

4.6.1 分区表基本操作

4.6.2 分区表注意事项

4.6.3 将上传数据与分区表关联

4.7 修改表

5. DML 数据操作

5.1 数据导入

5.1.1 创建表时通过 Location 指定加载数据路径

5.2 数据导出

5.2.1 Insert 导出

5.2.2 Hadoop 命令导出到本地

5.2.3 Hive Shell 命令导出

5.2.4 Export 导出到 HDFS 上

5.2.5 Import 数据到指定 Hive 表中

5.3 清除表中数据

Hive 数据类型及操作数据库的更多相关文章

随机推荐

热门专题