HIVE小结

HIVE基本语法

HIVE和Mysql十分类似

建表规则

  CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

  [(col_name data_type [COMMENT col_comment], ...)]

  [COMMENT table_comment]

  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  [CLUSTERED BY (col_name, col_name, ...)

  [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

  [ROW FORMAT row_format]

  [STORED AS file_format]

  [LOCATION hdfs_path]

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常
EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）
LIKE 允许用户复制现有的表结构，但是不复制数据
COMMENT可以为表与字段增加描述

创建表

hive> CREATE TABLE IF NOT EXISTS test1

> (id INT,name STRING);

删除表

drop table test1;

查看表结构

desc test1;

修改表名

alter table test1 rename to test2;

修改表结构

alter table test1 add columns(address string ,grade string);

创建和已知表相同结构的表

create table test3 like test1;

加载本地数据

load date local inpath '/home/date/' into table test1;

注意可以在into 前面添加overwrite表示覆盖之前在test1的数据，如果没有就表示加载本地数据在原始数据的后面

加载hdfs的文件

首先将文件上传到hdfs文件系统对对应的目录上

hadoop fs -put /home/.txt /usr/**

然后加载hdfs中的数据

load data inpath /usr/** into table test1;

插入数据

insert overwrite table test2 select * from test1;

查询数据

和mysql语法上没甚没区别

查询单个字段的数据
where条件查询
all和distinct
limit限制查询
group by
order by
sort bu
distribute by
cluster by

HIVE分区

hive分区是为了更方便数据管理，常见的有时间分区和业分区

	create table t1(

    id      int

   	,name    string

   	,hobby   array<string>

   	,add     map<String,string>

	)

	partitioned by (pt_d string)

需要注意的是分区字段不能和表中的字段重复，否则就会报错：

	FAILED: SemanticException [Error 10035]: Column repeated in partitioning columns

我们在加载数据的时候也可以分区加载

load data local inpath '/home/hadoop/Desktop/data' overwrite into table t1 partition ( pt_d = '201701');

之后我们再将同一份数据加载到不同的分区中

load data local inpath '/home/hadoop/Desktop/data' overwrite into table t1 partition ( pt_d = '000000');

查询一下数据 select * from t1;

1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  000000

2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   000000

3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  000000

1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  201701

2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   201701

3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  201701

创建分区除了在创建表的时候启动partition by实现，还可以

alter table t1 add partition (pt_d string)

这样就创建了一个分区，这时会看到hive在hdfs中创建了相应的文件夹

查询相应的分区的数据

select * from t1 where pt_d = ‘000000’

添加分区，增加一个分区文件

alter table t1 add partition (pt_d = ‘333333’);

删除分区（删除对应的分区文件）

注意，对于外表进行drop partition并不会删除hdfs上的文件，并且通过msck repair table table_name同步回hdfs上的分区。

alter table test1 drop partition (pt_d = ‘20170101’);

查询分区

show partitions table_name;

修复分区

修复分区就是重新同步hdfs上的分区信息。

msck repair table table_name;

插入数据

insert overwrite table partition_test partition(stat_date='2015-01-18',province='jiangsu')

select member_id,name from partition_test_input

where stat_date='2015-01-18'

and province='jiangsu';

内部表和外部表的区别

Hive中表与外部表的区别：

1、在导入数据到外部表，数据并没有移动到自己的数据仓库目录下，也就是说外部表中的数据并不是由它自己来管理的！而表则不一样；

2、在删除表的时候，Hive将会把属于表的元数据和数据全部删掉；而删除外部表的时候，Hive仅仅删除外部表的元数据，数据是不会删除的！

那么，应该如何选择使用哪种表呢？在大多数情况没有太多的区别，因此选择只是个人喜好的问题。但是作为一个经验，如果所有处理都需要由Hive完成，那么你应该创建表，否则使用外部表！

HIVE基本语法以及HIVE分区的更多相关文章

Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件 ...
一脸懵逼学习Hive的使用以及常用语法（Hive语法即Hql语法）
Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManual Hive的数据存储 1.Hiv ...
【Hive学习之五】Hive 参数&动态分区&分桶
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
Hive SQL 语法学习与实践
Hive 介绍 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供 ...
Hive SQL语法总结
Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作. Hive 查询操作过程严格遵守Hadoop MapReduce 的作业 ...
Hadoop Hive概念学习系列之hive里的分区（九）
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”. 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助. 分 ...
Hive 基本语法操练（六）：Hive 的权限控制
Hive 的权限控制 Hive从0.10可以通过元数据控制权限.但是Hive的权限控制并不是完全安全的.基本的授权方案的目的是防止用户不小心做了不合适的事情. 为了使用Hive的授权机制,有两个参数必 ...
Hive 基本语法操练（五）：Hive 的 JOIN 用法
Hive 的 JOIN 用法 hive只支持等连接,外连接,左半连接.hive不支持非相等的join条件(通过其他方式实现,如left outer join),因为它很难在map/reduce中实现这 ...

随机推荐

.net core系列之《sdk和runtime区别及使用CLI在Ubuntu上快速搭建Console,WebApi,MVC三大应用模型》
一.需要安装的软件 1.虚拟机安装Ubuntu系统(本人用的是vmware-14.1.12和buntu-18.04) 2.Xshell或 Putty(连接ssh服务) 3.FileZilla(ftp上 ...
Azure 负载均衡器介绍
您现在访问的是微软AZURE全球版技术文档网站,若需要访问由世纪互联运营的MICROSOFT AZURE中国区技术文档网站,请访问 https://docs.azure.cn. Azure 负载均衡器 ...
Undirected Graphs
无向图 Introduction 图是由边连接的点的集合,有着广泛的应用空间. 一些图的术语,点,边,路径,环(圈),连通分量(子图). 简单路径不重复经过点,简单环不含有重复点和边,简单图不含自环和 ...
python异常处理及内置模块
异常处理有时候我们在写程序的时候会出现错误或者异常,导致程序终止,如下这个例子: #!/usr/bin/env python a = 2/0 print(a) 结果提示如下错误: Traceback ...
windows server 2008/2012安装PostgreSQL过程及问题总结
今天第一次接触在Windows Server2008/2012 下安装PostgreSQL,遇到的问题总结如下: 1.首先,在安装的时候,我更改安装目录改为自定义的E盘,安装时报错:libintl.d ...
Phonegap 目录结构介绍
1.Src 该目录包含了所有用户要创建的 Java 源文件 2.gen 为开发工具自动创建 3.assets 目录用于方一些资源文件 css js html 4.res 目录该目录包含了所有的资源文 ...
mongo数据库导入导出数据
一.Mongodb导出工具mongoexport Mongodb中的mongoexport工具可以把一个collection导出成JSON格式或CSV格式的文件.可以通过参数指定导出的数据项,也可以根 ...
BZOJ2330:[SCOI2011]糖果(差分约束)
Description 幼儿园里有N个小朋友,lxhgww老师现在想要给这些小朋友们分配糖果,要求每个小朋友都要分到糖果.但是小朋友们也有嫉妒心,总是会提出一些要求,比如小明不希望小红分到的糖果比他的 ...
【[HNOI2008]GT考试】
我又来复习\(kmp\)了其实这道题主要是一个矩阵乘法,但是\(kmp\)在其中也有着非常重要的作用我们可以这样定义状态\(dp[i][j]\)表示文本串进行到了\(i\)位置,同时文本串在最后和 ...
P3177 [HAOI2015]树上染色
题目描述有一棵点数为 N 的树,树边有边权.给你一个在 0~ N 之内的正整数 K ,你要在这棵树中选择 K个点,将其染成黑色,并将其他的N-K个点染成白色 . 将所有点染色后,你会获得黑点两两之 ...