Hive3.1.2概述与基本操作

1、Hive基本概念

1.1 Hive简介

Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。

思考：计算文件user.txt中张三出现几次，使用mapreduce怎么写，然后再比照下图的hive实现过程（画图带同学理解）

面试题：什么是hive?

1、hive是数据仓库建模的工具之一。

2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。

带同学画图

为什么使用Hive?

如果直接使用hadoop的话，人员学习成本太高，项目要求周期太短，MapReduce实现复杂查询逻辑开发难度太大。如果使用hive的话，可以操作接口采用类SQL语法，提高开发能力，免去了写MapReduce，减少开发人员学习成本，功能扩展很方便（比如：开窗函数）。

Hive的特点：

1、可扩展性

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务

2、延申性

Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数

3、容错

即使节点出现错误，SQL仍然可以完成执行

Hive的优缺点：

优点：

1、操作接口采用类sql语法，提供快速开发的能力（简单、容易上手）

2、避免了去写MapReduce,减少开发人员的学习成本

3、Hive的延迟性比较高，因此Hive常用于数据分析，适用于对实时性要求不高的场合

4、Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。（不断地开关JVM虚拟机）

5、Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

6、集群可自由扩展并且具有良好的容错性，节点出现问题SQL仍可以完成执行

缺点：

1、Hive的HQL表达能力有限

（1）迭代式算法无法表达（反复调用，mr之间独立，只有一个map一个reduce，反复开关）

（2）数据挖掘方面不擅长

2、Hive 的效率比较低

（1）Hive 自动生成的 MapReduce 作业，通常情况下不够智能化

（2）Hive 调优比较困难，粒度较粗（hql根据模板转成mapreduce，不能像自己编写mapreduce一样精细，无法控制在map处理数据还是在reduce处理数据）

Hive和传统数据库对比

hive和mysql什么区别？

Hive应用场景

日志分析：大部分互联网公司使用hive进行日志分析，如百度、淘宝等。

统计一个网站一个时间段内的pv,uv，SKU,SPU,SKC

多维度数据分析（数据仓库）

海量结构化(关系型)数据离线分析

构建数据仓库

PV（Page View）访问量, 即页面浏览量或点击量，衡量网站用户访问的网页数量；在一定统计周期内用户每打开或刷新一个页面就记录1次，多次打开或刷新同一页面则浏览量累计。

UV（Unique Visitor）独立访客，统计1天内访问某站点的用户数(以cookie为依据);访问网站的一台电脑客户端为一个访客。可以理解成访问某网站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。如果更换了IP后但不清除cookies，再访问相同网站，该网站的统计中UV数是不变的。如果用户不保存cookies访问、清除了cookies或者更换设备访问，计数会加1。00:00-24:00内相同的客户端多次访问只计为1个访客。

1.2 Hive架构

1.2.1 Client

Hive允许client连接的方式有三个CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问 hive）。JDBC访问时中间件Thrift软件框架，跨语言服务开发。DDL DQL DML,整体仿写一套SQL语句。

1）client–需要下载安装包

2）JDBC/ODBC 也可以连接到Hive

现在主流都在倡导第二种 HiveServer2/beeline

做基于用户名和密码安全的一个校验

3）Web Gui

hive给我们提供了一套简单的web页面

我们可以通过这套web页面访问hive 做的太简陋了

1.2.2 Metastore

元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

一般需要借助于其他的数据载体（数据库）

主要用于存放数据库的建表语句等信息

推荐使用Mysql数据库存放数据

连接数据库需要提供：uri username password driver

1.2.3 Driver（面试题：sql语句是如何转化成MR任务的？）

元数据存储在数据库中，默认存在自带的derby数据库（单用户局限性）中，推荐使用Mysql进行存储。

1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST（从3.x版本之后，转换成一些的stage），这一步一般都用第三方工具库完成，比如ANTLR；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

2）编译器（Physical Plan）：将AST编译（从3.x版本之后，转换成一些的stage）生成逻辑执行计划。

3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是 MR/Spark/flink。

1.2.4 数据处理

Hive的数据存储在HDFS中，计算由MapReduce完成。HDFS和MapReduce是源码级别上的整合，两者结合最佳。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。

1.4 Hive的三种交互方式

1）第一种交互方式

shell交互Hive，用命令hive启动一个hive的shell命令行，在命令行中输入sql或者命令来和Hive交互。

服务端启动metastore服务（后台启动）：nohup hive --service metastore &

进入命令:hive

退出命令行：quit;

2）第二种交互方式

Hive启动为一个服务器，对外提供服务，其他机器可以通过客户端通过协议连接到服务器，来完成访问操作，这是生产环境用法最多的

服务端启动hiveserver2服务：

nohup hive --service metastore &

nohup hiveserver2 &

需要稍等一下，启动服务需要时间：

进入命令:1)先执行： beeline ，再执行： !connect jdbc:hive2://master:10000

        2)或者直接执行：  beeline -u jdbc:hive2://master:10000 -n root

退出命令行：!exit

3）第三种交互方式

使用 –e 参数来直接执行hql的语句

bin/hive -e "show databases;"

使用 –f 参数通过指定文本文件来执行hql的语句

特点：执行完sql后，回到linux命令行。

vim hive.sql

create database bigdata30_test;

use bigdata30_test;

create table test1

(

    id bigint,

    name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

show tables;

hive -f hive.sql

4）hive cli和beeline cli的区别

1.5 Hive元数据

Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等组件访问元数据库的理解。

1、存储Hive版本的元数据表(VERSION)，该表比较简单，但很重要,如果这个表出现问题，根本进不来Hive-Cli。比如该表不存在，当启动Hive-Cli的时候，就会报错“Table 'hive.version' doesn't exist”

2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)

DBS：该表存储Hive中所有数据库的基本信息。

DATABASE_PARAMS：该表存储数据库的相关参数。

3、Hive表和视图相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。

TBLS:该表中存储Hive表，视图，索引表的基本信息。

TABLE_PARAMS:该表存储表/视图的属性信息。

TBL_PRIVS：该表存储表/视图的授权信息。

4、Hive文件存储信息相关的元数据表

主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS，由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。

SDS：该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。TBLS表中的SD_ID与该表关联，可以获取Hive表的存储信息。

SD_PARAMS: 该表存储Hive存储的属性信息。

SERDES:该表存储序列化使用的类信息。

SERDE_PARAMS:该表存储序列化的一些属性、格式信息，比如:行、列分隔符。

5、Hive表字段相关的元数据表

主要涉及COLUMNS_V2：该表存储表对应的字段信息。

2、Hive的基本操作

2.1 Hive库操作

2.1.1 创建数据库

1）创建一个数据库，数据库在HDFS上的默认存储路径是/hive/warehouse/*.db。

create database testdb;

2）避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）

create database [if not exists] testdb; 

create database if not exists testdb;

2.2.2 创建数据库和位置

create database if not exists bigdata30_test3 location '/bigdata30/luyunlongdb';

2.2.3 修改数据库

数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。（重点关注哪些不能改，以及为什么！！）

alter database dept set dbproperties('createtime'='20220531');

2.2.4 数据库详细信息

1）显示数据库（show）

show databases;

2）可以通过like进行过滤

show databases like 't*';

3）查看详情（desc）

desc database testdb;

4）切换数据库（use）

use testdb;

2.2.5 删除数据库（将删除的目录移动到回收站中）

1）最简写法

drop database testdb;

2）如果删除的数据库不存在，最好使用if exists判断数据库是否存在。否则会报错：FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

drop database if exists testdb;

3)如果数据库不为空，使用cascade命令进行强制删除。报错信息如下FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.)

drop database if exists testdb cascade;

2.2 Hive数据类型

2.2.1 基础数据类型

类型	Java数据类型	描述
TINYINT	byte	8位有符号整型。取值范围：-128~127。
SMALLINT	short	16位有符号整型。取值范围：-32768~32767。
INT	int	32位有符号整型。取值范围：-2 31 ~2 31 -1。
BIGINT	long	64位有符号整型。取值范围：-2 63 +1~2 63 -1。
BINARY		二进制数据类型，目前长度限制为8MB。
FLOAT	float	32位二进制浮点型。
DOUBLE	double	64位二进制浮点型。
DECIMAL(precision,scale)		10进制精确数字类型。precision：表示最多可以表示多少位的数字。取值范围：1 <= precision <= 38。scale：表示小数部分的位数。取值范围： 0 <= scale <= 38。如果不指定以上两个参数，则默认为decimal(10,0)。
VARCHAR(n)		变长字符类型，n为长度。取值范围：1~65535。
CHAR(n)		固定长度字符类型，n为长度。最大取值255。长度不足则会填充空格，但空格不参与比较。
STRING	string	字符串类型，目前长度限制为8MB。
DATE		日期类型，格式为`yyyy-mm-dd`。取值范围：0000-01-01~9999-12-31。
DATETIME		日期时间类型。取值范围：0000-01-01 00:00:00.000~9999-12-31 23.59:59.999，精确到毫秒。
TIMESTAMP		与时区无关的时间戳类型。取值范围：0000-01-01 00:00:00.000000000~9999-12-31 23.59:59.999999999，精确到纳秒。说明对于部分时区相关的函数，例如cast(as string)，要求TIMESTAMP按照与当前时区相符的方式来展现。
BOOLEAN	boolean	BOOLEAN类型。取值：True、False。

2.2.2 复杂的数据类型

类型	定义方法	构造方法
ARRAY	array<int>``array<struct<a:int, b:string>>	array(1, 2, 3)``array(array(1, 2), array(3, 4))
MAP	map<string, string>``map<smallint, array<string>>	map(“k1”, “v1”, “k2”, “v2”)``map(1S, array(‘a’, ‘b’), 2S, array(‘x’, ‘y’))
STRUCT		struct<x:int, y:int>`struct<field1:bigint, field2:array<int>, field3:map<int, int>> named_struct(‘x’, 1, ‘y’, 2)`named_struct(‘field1’, 100L, ‘field2’, array(1, 2), ‘field3’, map(1, 100, 2, 200))

Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似，而STRUCT与C语言中的Struct类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。还有一个uniontype< 所有类型，所有类型… > 。

数组：array< 所有类型 >；

Map < 基本数据类型，所有数据类型 >；

struct < 名：所有类型[注释] >;

uniontype< 所有类型，所有类型… >

2.3 Hive表操作

Hive的存储格式:

Hive没有专门的数据文件格式,常见的有以下几种:

TEXTFILE

SEQUENCEFILE

AVRO

RCFILE

ORCFILE

PARQUET

TextFile:

       TEXTFILE 即正常的文本格式，是Hive默认文件存储格式，因为大多数情况下源数据文件都是以text文件格式保存（便于查看验数和防止乱码）。此种格式的表文件在HDFS上是明文，可用hadoop fs -cat命令查看，从HDFS上get下来后也可以直接读取。

        TEXTFILE 存储文件默认每一行就是一条记录，可以指定任意的分隔符进行字段间的分割。但这个格式无压缩，需要的存储空间很大。虽然可结合Gzip、Bzip2、Snappy等使用，使用这种方式，Hive不会对数据进行切分，从而无法对数据进行并行操作。

一般只有与其他系统由数据交互的接口表采用TEXTFILE 格式，其他事实表和维度表都不建议使用。

RCFile:

Record Columnar的缩写。是Hadoop中第一个列文件格式。能够很好的压缩和快速的查询性能。通常写操作比较慢，比非列形式的文件格式需要更多的内存空间和计算量。 RCFile是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据`列式存储`，有利于数据压缩和快速的列存取。

ORCFile:

Hive从0.11版本开始提供了ORC的文件格式，ORC文件不仅仅是一种列式文件存储格式，最重要的是有着很高的压缩比，并且对于MapReduce来说是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以很大程度的节省HDFS存储资源，而且对数据的查询和处理性能有着非常大的提升，因为ORC较其他文件格式压缩比高，查询任务的输入数据量减少，使用的Task也就减少了。ORC能很大程度的节省存储和计算资源，但它在读写时候需要消耗额外的CPU资源来压缩和解压缩，当然这部分的CPU消耗是非常少的。

Parquet:

通常我们使用关系数据库存储结构化数据，而关系数据库中使用数据模型都是扁平式的，遇到诸如数组、Map和自定义Struct的时候就需要用户在应用层解析。但是在大数据环境下，通常数据的来源是服务端的埋点数据，很可能需要把程序中的某些对象内容作为输出的一部分，而每一个对象都可能是嵌套的，所以如果能够原生的支持这种数据，这样在查询的时候就不需要额外的解析便能获得想要的结果。Parquet的灵感来自于2010年Google发表的Dremel论文，文中介绍了一种支持嵌套结构的存储格式，并且使用了列式存储的方式提升查询性能。Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定。这也是parquet相较于orc的仅有优势：支持嵌套结构。Parquet 没有太多其他可圈可点的地方,比如他不支持update操作(数据写成后不可修改),不支持ACID等.

SEQUENCEFILE:

SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中的MapFile 是互相兼容的。Hive 中的SequenceFile 继承自Hadoop API 的SequenceFile，不过它的key为空，使用value 存放实际的值， 这样是为了避免MR 在运行map 阶段的排序过程。SequenceFile支持三种压缩选择：NONE, RECORD, BLOCK。 Record压缩率低，一般建议使用BLOCK压缩。 SequenceFile最重要的优点就是Hadoop原生支持较好，有API，但除此之外平平无奇，实际生产中不会使用。

AVRO:

Avro是一种用于支持数据密集型的二进制文件格式。它的文件格式更为紧凑，若要读取大量数据时，Avro能够提供更好的序列化和反序列化性能。并且Avro数据文件天生是带Schema定义的，所以它不需要开发者在API 级别实现自己的Writable对象。Avro提供的机制使动态语言可以方便地处理Avro数据。最近多个Hadoop 子项目都支持Avro 数据格式，如Pig 、Hive、Flume、Sqoop和Hcatalog。

Hive的四大常用存储格式存储效率及执行速度对比

结论：ORCFILE存储文件读操作效率最高

耗时比较：ORC<Parquet<RC<Text

结论：ORCFILE存储文件占用空间少，压缩效率高

占用空间：ORC<Parquet<RC<Text

2.3.1 创建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...)

[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

字段解释说明:

- CREATE TABLE

	创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

- EXTERNAL

	关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）

	创建内部表时，会将数据移动到数据仓库指向的路径（默认位置）；

	创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。在

	删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

- COMMENT：

	为表和列添加注释。

- PARTITIONED BY

	创建分区表

- CLUSTERED BY

	创建分桶表

- SORTED BY

	不常用

- ROW FORMAT

  DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

	用户在建表的时候可以自定义SerDe或者使用自带的SerDe。

	如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED，将会使用自带的SerDe。

	在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。

	SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。

- STORED AS指定存储文件类型

	常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）

	如果文件数据是纯文本，可以使用STORED AS TEXTFILE。

	如果数据需要压缩，使用 STORED AS SEQUENCEFILE。

- LOCATION ：

	指定表在HDFS上的存储位置。

- LIKE

	允许用户复制现有的表结构，但是不复制数据。

建表1：全部使用默认建表方式

create table students2

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '_'; // 必选，指定列分隔符

建表2：指定location （这种方式也比较常用）

create table IF NOT EXISTS students2

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/bigdata27/input1'; // 指定Hive表的数据的存储位置，一般在数据已经上传到HDFS，想要直接使用，会指定Location，通常Locaion会跟外部表一起使用，内部表一般使用默认的location

create table IF NOT EXISTS person_avg_counts

(

	name string,

	avg_count bigint

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

LOCATION '/bigdata29/out4';

建表3：指定存储格式

create table IF NOT EXISTS test_orc_tb

(

    id bigint,

    name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS ORC

LOCATION '/bigdata29/out6'; // 指定储存格式为orcfile，inputFormat:RCFileInputFormat,outputFormat:RCFileOutputFormat，如果不指定，默认为textfile，注意：除textfile以外，其他的存储格式的数据都不能直接加载，需要使用从表加载的方式。

建表4：create table xxxx as select_statement(SQL语句) (这种方式比较常用)

create table IF NOT EXISTS bigdata29.students(id bigint,name string,age int,gender string,clazz string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

create table IF NOT EXISTS bigdata29.xuqiu2(clazz string,number bigint)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

insert into students3_1 values(1002,'吴小康',19,'男','27期特训营');

create table students4 as select * from students2;

建表5：create table xxxx like table_name 只想建表，不需要加载数据

create table students5 like students;

简单用户信息表创建：

create table t_user(

id int,

uname string,

pwd string,

gender string,

age int

)

row format delimited fields terminated by ','

lines terminated by '\n';

1,admin,123456,男,18

2,zhangsan,abc123,男,23

3,lisi,654321,女,16

复杂人员信息表创建：

create table IF NOT EXISTS t_person(

name string,

friends array<string>,

children map<string,int>,

address struct<street:string ,city:string>

)

row format delimited fields terminated by ',' -- 列与列之间的分隔符

collection items terminated by '_' -- 元素与元素之间分隔符

map keys terminated by ':' -- Map数据类型键与值之间的分隔符

lines terminated by '\n';  -- 行与行之间的换行符

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,beng bu_anhui

yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,he fei_anhui

2.3.2 显示表

show tables;

show tables like 'u*';

desc t_person;

desc formatted students; // 更加详细

2.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

下列命令需要在hive shell里执行

create table IF NOT EXISTS students4

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下，注意是 移动、移动、移动

load data inpath '/input1/students.txt' into table students;

// 清空表

truncate table students;

// 加上 local 关键字 可以将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 原文件不会被删除

load data local inpath '/usr/local/soft/data/students.txt' into table students;

// overwrite 覆盖加载

load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

// 将 students表的数据插入到students2 这是复制 不是移动 students表中的表中的数据不会丢失

insert into table students2 select * from students;

// 覆盖插入 把into 换成 overwrite

insert overwrite table students2 select * from students;

2.3.4 修改列

查询表结构

desc students2;

添加列

alter table students2 add columns (education string);

查询表结构

desc students2;

更新列

alter table stduents2 change education educationnew string;

2.3.5 删除表

drop table students2;

2.4 Hive内外部表

面试题：内部表和外部表的区别？如何创建外部表？工作中使用外部表

2.4.1 hive内部表

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据

当load数据的时候，就会将数据文件存放到表对应的文件夹中

而且数据一旦被load，就不能被修改

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

默认建表的类型就是内部表

// 内部表

create table students_internal

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

2.4.1 Hive外部表

外部表说明

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

// 外部表

create external table students_external

(

    id bigint,

    name string,

    age int,

    gender string,

    clazz string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

LOCATION '/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

删除表测试一下：

hive> drop table students_internal;

Moved: 'hdfs://master:9000/input2' to trash at: hdfs://master:9000/user/root/.Trash/Current

OK

Time taken: 0.474 seconds

hive> drop table students_external;

OK

Time taken: 0.09 seconds

hive>

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch......

设计外部表的初衷就是让表的元数据与数据解耦

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录

hdfs dfs -mkdir -p /shujia/bigdata17/dept

hdfs dfs -mkdir -p /shujia/bigdata17/emp

hdfs dfs -mkdir -p /shujia/bigdata17/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (

  DEPTNO int,

  DNAME varchar(255),

  LOC varchar(255)

) row format delimited fields terminated by ','

location '/shujia/bigdata17/dept';

10,ACCOUNTING,NEW YORK

20,RESEARCH,DALLAS

30,SALES,CHICAGO

40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (

   EMPNO int,

   ENAME varchar(255),

   JOB varchar(255),

   MGR int,

   HIREDATE date,

   SAL decimal(10,0),

   COMM decimal(10,0),

   DEPTNO int

 ) row format delimited fields terminated by ','

 location '/shujia/bigdata17/emp';

7369,SMITH,CLERK,7902,1980-12-17,800,null,20

7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30

7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30

7566,JONES,MANAGER,7839,1981-04-02,2975,null,20

7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30

7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30

7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10

7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (

  GRADE int,

  LOSAL int,

  HISAL int

) row format delimited fields terminated by ','

location '/shujia/bigdata17/salgrade';

1,700,1200

2,1201,1400

3,1401,2000

4,2001,3000

5,3001,9999

2.5 Hive导出数据

将表中的数据备份

将查询结果存放到本地

//创建存放数据的目录

mkdir -p /usr/local/soft/shujia

//导出查询结果的数据(导出到Node01上)

insert overwrite local directory '/usr/local/soft/shujia/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录

mkdir -p /usr/local/soft/shujia

-- 导出查询结果的数据

insert overwrite local directory '/usr/local/soft/shujia/person'

ROW FORMAT DELIMITED fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

lines terminated by '\n'

select * from t_person;

将查询结果输出到HDFS

-- 创建存放数据的目录

hdfs dfs -mkdir -p /shujia/bigdata17/copy

-- 导出查询结果的数据

insert overwrite local directory '/usr/local/soft/shujia/students_data2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录

hdfs dfs -mkdir -p /shujia/bigdata17/person

// 使用HDFS命令拷贝文件到其他目录

hdfs dfs -cp /hive/warehouse/t_person/*  /shujia/bigdata17/person

将表结构和数据同时备份

将数据导出到HDFS

//创建存放数据的目录

hdfs dfs -mkdir -p /shujia/bigdata17/copy

//导出查询结果的数据

export table t_person to '/shujia/bigdata17/copy';

删除表结构

drop table t_person;

恢复表结构和数据

import from '/shujia/bigdata17';

注意：时间不同步，会导致导入导出失败

hive第一课：Hive3.1.2概述与基本操作的更多相关文章

2011斯坦福大学iOS应用开发教程学习笔记(第一课)MVC.and.Introduction.to.Objective-C
blog.csdn.net/totogo2010/article/details/8205810 目录(?)[-] 第一课名称 MVC and Introduction to Objective-C ...
【Linux探索之旅】第二部分第一课：终端Terminal，好戏上场
内容简介 1.第二部分第一课:终端Terminal,好戏上场 2.第二部分第二课预告:命令行,世界尽在掌握终端Terminal,好戏上场随着第一部分的结束,我们进入了第二部分(小编你这好像是废话. ...
vue.js学习（第一课）
学习资料来自台湾小凡! vue.js是javascript的一个库,只专注于UI层面,核心价值永远是 API的简洁. 第一课: 不支持IE8. 1.声明式渲染: el元素的简称 element : ...
Magento学习第一课——目录结构介绍
Magento学习第一课--目录结构介绍一．Magento为何强大 Magento是在Zend框架基础上建立起来的,这点保证了代码的安全性及稳定性.选择Zend的原因有很多,但是最基本的是因为zen ...
<-0基础学python.第一课->
初衷:我电脑里面的歌曲很久没换了,我想听一下新的歌曲,把他们下载下来听,比如某个榜单的,但是一首一首的点击下载另存为真的很恶心所以我想有没有办法通过程序的方式来实现,结果还真的有,而且网上已经有有人 ...
留念 C语言第一课简单的计算器制作
留念 C语言第一课简单的计算器制作学C语言这么久了. /* 留念 C语言第一课简单的计算器制作 */ #include<stdio.h> #include<stdlib.h ...
MFC学习-第一课 MFC运行机制
最近由于兴趣爱好,学习了孙鑫的MFC教程的第一课.看完视频了,自己便用visual studio 2010尝试了MFC编程,其中遇到了一些问题. 1.vs2010不像vs6.0那样可以新建一个空的MF ...
OpenCV 第一课(安装与配置)
OpenCV 第一课(安装与配置) win10,opencv-2.4.13, 安装, vs2013, 配置下载安装软件官网OpenCV下载地址下载最新版本,我下载的是opencv.2.4.13,然 ...
【第一课】神奇的Context
初学Android的困惑初学Android跳转页面的时候,往往教程里是这么写的: Intent intent = new Intent(); //MyActivity就是当前的Activity,It ...
CodeIgniter框架入门教程——第一课 Hello World！
本文转载自:http://www.softeng.cn/?p=45 今天开始,我将在这里连载由我自己编写的<CodeIgniter框架入门教程>,首先,这篇教程的读着应该是有PHP基础的编 ...

随机推荐

一个 5.2k+ Star 的微服务商城系统
大家好,我是 Java陈序员. 自从微服务开始流行之后,各种商城系统.外卖系统可是层出不穷.面试的时候人人都说做过商城系统,导致现在一听电商系统就是烂大街的项目. 黑格尔曾经说过:存在即合理.电商系统 ...
学会使用 NumPy：基础、随机、ufunc 和练习测试
NumPy NumPy 是一个用于处理数组的 Python 库.它代表"Numerical Python". 基本随机 ufunc 通过测验测试学习检验您对 NumPy 的掌握 ...
几个ABAP FREE面试问题
Text. Text. Text. Text. Text. 电话面试,有几个问题没有回答上.有些问题是此前完全不了解的,有些是学过但因为好久不用已经忘记.这里试着重新回答一下. 1,如何创建bapi? ...
【2023知乎爬虫】我用Python爬虫爬了2386条知乎评论！
目录一.爬取目标二.展示爬取结果三.爬虫代码讲解 3.1 分析知乎页面 3.2 爬虫代码四.同步视频五.完整源码您好,我是 @马哥python说,一枚10年程序猿. 一.爬取目标前些天我 ...
ansible系列(1)--ansible基础
目录 1. ansible概述 1.1 ansible的功能 1.2 ansible的特性 1.3 ansible的架构 1.4 ansible注意事项 1. ansible概述 Ansible 是一 ...
CentOS加载yum源时报错 [Errno 14] HTTP Error 404 - Not Found Trying other mirror.
报错内容: [root@192 yum.repos.d]# yum repolist Loaded plugins: fastestmirror, product-id, search-disable ...
oracle中commit之后如何进行回滚
commit之后第一种: 记住大概的时间,获取前大概时间的数据. select * from Test as of timestamp to_timestamp('2021-12-08 09:30: ...
【力扣-TS解题】1、回文数
给你一个整数 x ,如果 x 是一个回文整数,返回 true :否则,返回 false . 回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数. 例如,121 是回文,而 123 不是来源 ...
C# Log4net 组件无法写日志 IsDebuged、IsInfoEnabled、IsErrorEnabled 全部为false
[assembly: log4net.Config.XmlConfigurator(ConfigFile = "Log4Net.config", Watch = true)] 如果 ...
你好Avalonia框架
https://docs.avaloniaui.net/docs/getting-started/ 起因公司事业部是做移动等营业厅办理相关业务,无纸化系统的.简单的说就是以前去营业厅办理业务都需要各种 ...

hive第一课：Hive3.1.2概述与基本操作