hive 学习系列三（表格的创建create-table）

表格创建：

语法

第一种建表的形式：

说明：

temporary 临时表，在当前回话内，这张表有效，当回话结束，可以理解为程序结束，则程序终止。

external 外部表， hdfs 上的表的文件，并非存储在默认的路径上的时候，

    EXTERNAL 表格和正常表格删除区别，external 只删除metastore

    可以称为外部表，便于和其他数据库和程序交互，比如impala 等。

如果不加 IF NOT EXISTS 的时候，如果表存在，会报错，可以加上IF NOT EXISTS 加以避免。

注意表名不区分大小写

例子：

create temporary table my.table1;

create external table my.table2;

create tabel if not exists my.table3;

-- (Note: TEMPORARY available in Hive 0.14.0 and later)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

   --定义列， 比如 id  Int comment '索引', name string comment '名字'

  [(col_name data_type [COMMENT col_comment], ... [constraint_specification])]

  [COMMENT table_comment]  -- comment 表示表的注释

  --分区，括号内的定义类似列的定义，分区可以根据默写字段比如日期，城市，进行分区，可以加快某些条件下的查询

  --部分列的集合，根据分区列的进行粗粒度的划分，一个分区，代表着一个目录

  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  --分桶，在分区的基础上，可以进行分桶，分桶的原理是，根据某几列进行计算hash 值，

  --然后hash 值对分成的桶的个数取余操作，决定放在哪个桶里面

  --在数据量足够大的情况下，分桶比分区，更高的查询效率

  --分桶，还可以使抽样更加高效

  [CLUSTERED BY (col_name, col_name, ...)

            [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  ---- 分桶

  ---大致上Skewed，对数据倾斜处理有很大帮助，没用过

  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]

     ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)

     [STORED AS DIRECTORIES]

  [

   [ROW FORMAT row_format]

   [STORED AS file_format]

     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)

  ]   -- 表示文件的存储格式， 其中store by 指的是自定义文件格式，用得不多，笔者没有用过。

  [LOCATION hdfs_path]

  [TBLPROPERTIES (property_name=property_value, ...)]    --  表示表格的附加属性和表述。

                                                         -- (Note: Available in Hive 0.6.0 and later)

  [AS select_statement];

   -- 建立表格的时候同时从其他表格select 数据进行填充表格。

   -- (Note: as  select_statement Available in Hive 0.5.0 and later; not supported for external tables)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

  LIKE existing_table_or_view_name

  [LOCATION hdfs_path];

 说明：

 数据类型

data_type

  : primitive_type

  | array_type

  | map_type

  | struct_type

  | union_type  -- (Note: Available in Hive 0.7.0 and later)

基本数据类型

primitive_type

  : TINYINT

  | SMALLINT

  | INT

  | BIGINT

  | BOOLEAN

  | FLOAT

  | DOUBLE

  | DOUBLE PRECISION -- (Note: Available in Hive 2.2.0 and later)

  | STRING

  | BINARY      -- (Note: Available in Hive 0.8.0 and later)

  | TIMESTAMP   -- (Note: Available in Hive 0.8.0 and later)

  | DECIMAL     -- (Note: Available in Hive 0.11.0 and later)

  | DECIMAL(precision, scale)  -- (Note: Available in Hive 0.13.0 and later)

  | DATE        -- (Note: Available in Hive 0.12.0 and later)

  | VARCHAR     -- (Note: Available in Hive 0.12.0 and later)

  | CHAR        -- (Note: Available in Hive 0.13.0 and later)

 复杂数据类型

array_type

  : ARRAY < data_type >

map_type

  : MAP < primitive_type, data_type >

struct_type

  : STRUCT < col_name : data_type [COMMENT col_comment], ...>

union_type

   : UNIONTYPE < data_type, data_type, ... >  -- (Note: Available in Hive 0.7.0 and later)

## 在hdfs 上的文件存储格式

row_format

  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]

        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)

  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

file_format:

  : SEQUENCEFILE

  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)

  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)

  | ORC         -- (Note: Available in Hive 0.11.0 and later)

  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)

  | AVRO        -- (Note: Available in Hive 0.14.0 and later)

  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

constraint_specification:

  : [, PRIMARY KEY (col_name, ...) DISABLE NOVALIDATE ]

    [, CONSTRAINT constraint_name FOREIGN KEY (col_name, ...) REFERENCES table_name(col_name, ...) DISABLE NOVALIDATE

说明

上述的建表语法，有些语法笔者不是很懂，希望各位不吝赐教。

常见例子：

例子一

create  table my.tabelDemo(

    id      int,

	name    string,

    hobby   array<string>,

   add     map<String,string>,

)

row format delimited

fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

store as textfile;

每一列之间，使用逗号分隔，

array 内部的string 使用-分隔。

map 的key 和value， 使用冒号分隔 ：

例子二

-- 文件存储形式是parquet

CREATE EXTERNAL TABLE IF NOT EXISTS default.person_table(

	ftpurl        string,

	ipcid         string,

	feature       array<float>,

	eyeglasses    int,

	gender        int,

	haircolor     int,

	hairstyle     int,

	hat           int,

	huzi          int,

	tie           int,

	timeslot      int,

	exacttime     Timestamp,

	searchtype    string,

	sharpness     int

)

partitioned by (date string)

STORED AS PARQUET

LOCATION '/user/hive/warehouse/person_table';

struct 使用

create table student_test(id INT, info struct<name:STRING, age:INT>)

    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

    COLLECTION ITEMS TERMINATED BY ':';         

hdfs 中的文件数据格式大致是：即（struct 里面对应的分隔符是 collection items terminated by 指定的分隔符）

1,zhou:30

2,yan:30

3,chen:20

4,li:80

以下是truncate 用来进行表格的清空

一个有用的数据清空工具

TRUNCATE TABLE table_name [PARTITION partition_spec];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

删除表格

DROP TABLE [IF EXISTS] table_name [PURGE];

-- purge，如果配置了垃圾回收，而drop table 时 加上了purge，则其会被彻底删除，在垃圾箱中也找不回来。

修改表

重命名表

ALTER TABLE table_name RENAME TO new_table_name;

改变表格属性

ALTER TABLE table_name SET TBLPROPERTIES table_properties;

table_properties:

  : (property_name = property_value, property_name = property_value, ... )

改变表格评论

ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);

对表格进行分桶

ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name, ...)]

  INTO num_buckets BUCKETS;

添加分区

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location']

    [, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

重命名分区

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

删除分区

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...]

  [IGNORE PROTECTION] [PURGE];

  -- (Note: PURGE available in Hive 1.2.0 and later, IGNORE PROTECTION not available 2.0.0 and later)

视图创建

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]

  [COMMENT view_comment]

  [TBLPROPERTIES (property_name = property_value, ...)]

  AS SELECT ...;

原文参考：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

hive 学习系列三（表格的创建create-table）的更多相关文章

DocX开源WORD操作组件的学习系列三
DocX学习系列 DocX开源WORD操作组件的学习系列一 : http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_sharp_001_docx1.htm ...
scrapy爬虫学习系列三：scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
RabbitMQ学习系列三-C#代码接收处理消息
RabbitMQ学习系列三:.net 环境下 C#代码订阅 RabbitMQ 消息并处理 http://www.80iter.com/blog/1438251320680361 http://www. ...
.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能
原文:.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能接上篇,上篇已经学习了界面的各种功能以及各种配置,这篇准备学习下代码控制许可证. ...
MyBatis学习系列三——结合Spring
目录 MyBatis学习系列一之环境搭建 MyBatis学习系列二——增删改查 MyBatis学习系列三——结合Spring MyBatis在项目中应用一般都要结合Spring,这一章主要把MyBat ...
hive 学习系列二（数据库的创建删除修改）拿走，不谢。
database 相当于一个目录或者命名空间,用来更好地进行表的管理在hdfs 的目录位置大致如下: [root@iZbp12vtv76y9q3d633bh6Z /]# hadoop fs -ls ...
hive学习笔记_hive的表创建
创建hive表注意事项一.表分隔符必须与读取的数据文件一致,比如例子的分隔符为 '\t'(制表符),hive下默认分隔符是制表符. 二.最好指定分区作为数据之间的区分. 三.创建完表可以desc+表 ...
hive 学习系列五（hive 和elasticsearch 的交互，很详细哦，我又来吹liubi了）
hive 操作elasticsearch 一,从hive 表格向elasticsearch 导入数据 1,首先,创建elasticsearch 索引,索引如下 curl -XPUT '10.81.17 ...
RabbitMQ学习系列三：.net 环境下 C#代码订阅 RabbitMQ 消息并处理
上一篇已经讲了Rabbitmq如何在Windows平台安装不懂请移步: RabbitMQ学习系列二:.net 环境下 C#代码使用 RabbitMQ 消息队列一.理论 .net环境下,C#代码订阅 ...

随机推荐

Java常用Json库性能对比
Java对于处理JSON数据的序列化与反序列化目前常用的类库有Gson.FastJSON.Jackson.jettison以及json-lib.在这里我们将对这些类库在json序列化与反序列化方面的性 ...
创建Spark镜像文件
创建Spark镜像文件 1.将spark容器提交到新的镜像中 $>docker commit 01a25bdf1499 myrepos:centos-spark 2.将centos-spark镜 ...
对 Canal (增量数据订阅与消费)的理解
概述 canal是阿里巴巴旗下的一款开源项目,纯Java开发.基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB). 起源:早期,阿里巴巴B2B公司 ...
What is a Thread?
https://computing.llnl.gov/tutorials/pthreads/ Technically, a thread is defined as an independent st ...
【牛客挑战赛30D】小A的昆特牌（组合问题抽象到二维平面）
点此看题面大致题意: 有$S$张无编号的牌,可以将任意张牌锻造成$n$种步兵或$m$种弩兵中的一种,求最后步兵数量大于等于$l$小于等于$r$的方案数. 暴力式子首先我们来考虑 ...
LA 4731 蜂窝网络
题目链接:https://vjudge.net/problem/UVALive-4731 题意: n 个数,分成 w 组,求整个区间的数学期望的最小值: 一个区间的数学期望公式给出:一个区间的和 * ...
Fy's dota2 题解
题目描述 Fy 觉得自己玩 cf,lol 这种高端游戏已经够厉害了,于是他决定去玩 dota2.结果 fy 的鼠标右键坏了,所以他就等到 2250 买了把闪烁匕首,用跳刀前进,准备去送泉水.但是 ...
【[NOI2003]文本编辑器】
题目发现这样一句话就会导致$T$ ch[m][0]=++m; 并不是很知道为什么,可能这是某种未定义行为在不同编译器下会有不同后果? 至于这道题就很简单了,几个有关光标位置的操作就用一个变量模拟 ...
郑州集训day1自闭有感
被拉到郑州培训了考了一上午莫名自闭帮助慎老师拿到$rk1$非常开心简述一下题目吧 T1.まんふは函数原题地址考原题还行据说是$Huffman$树在成爷爷的再三讲解下,我终于明白了 ...
SPOJ8093【JZPGYZ - Sevenk Love Oimaster】
怎么全是广义后缀自动机,我$AC$自动机不服这道题可以使用的算法很多,$SA$或者$SAM$应该都可以但是我都不会但是这毕竟是一个多串匹配问题,$AC$自动机还是可以刚一刚的我 ...

hive 学习系列三（表格的创建create-table）

表格创建：

语法

说明

常见例子：

例子一

例子二

struct 使用

以下是truncate 用来进行表格的清空

删除表格

修改表

重命名表

改变表格属性

改变表格评论

对表格进行分桶

添加分区

重命名分区

删除分区

视图创建

hive 学习系列三（表格的创建create-table）的更多相关文章

随机推荐

热门专题