hive 表分区操作

hive的数据查询一般会扫描整个表，当表数据太大时，就会消耗些时间，有时候我们只需要对部分数据感兴趣，所以hive引入了分区的概念

hive的表分区区别于一般的分布式分区（hash分区，范围分区，一致性分区），hive的分区是比较简单的。他是根据hive的表结构，分区的字段设置将数据按目录存放起来，相当于简单的索引

hive表分区需要在表模式创建的时候指定模式才能使用，他的字段是虚拟的列，不存在表数据中。表分区在表模式创建之后使用之前使用alert table 来添加具体的分区，才能使用

添加分区

alert table tableName add

partition(ds='2016-12-16',coutry='beiJing')

location='/opt/hive/beiJing/part2016-12-16'

partition(ds='2016-12-17',coutry='beiJing')

location='/opt/hive/beiJing/part2016-12-17'

删除分区

alert table tableName drop partitionName,partitionName1,partitionName2

例：

alert table tableName drop partition（ds='2016-12-16',coutry='beiJing'）

1）删除分区会连元数据和数据一并删除

2）在为表指定具体分区时，在创建表时必须要为表添加对应的模式，否则会抛出异常

3）分区的名称不能与表属性的名称一样

4）还可以创建多个分区，相当于多级索引的功能

在使用hsql向表中添加数据，如果hsql中的分区，在hdfs中没有，则hive会根据hsql自动新建分区（可能有的hive版本不支持自动创建分区，这里使用的是2.1.0）

insert overwrite table zhangTest partition(sexual=2) select studentid, sex,address,email from student_3 where sex=0

删除表

alert table drop tableName

删除表将会数据和元数据一起删除，如果定义了trash,那么删除的数据将会到trash/current目录下。如果定义了外部表就只会删除元数据，不会删除数据

删除和创建视图

create view viewName [{col_name},....]

as select....

目前只有hive6.0之后的版本才有这个功能,视图是只读的，不能对其进行load/insert/alert操作。

视图中有可能引用了order by 或者limit 子句，如果一个查询语句引用了这样一个视图，那么会优先查询视图中的语句，然后返回结果按照视图中的结果返回

drop vieww viewName//删除指定的视图

创建或删除函数

creeate temporary funaction fun_name as classs_name//

drop temporary fun_name//

展示描述语句(显示语句可以使用正则表达式进行匹配“*”，“|”“[]”)

show tables identifier_with_wildcards

显示表或者分区扩展表

show table extended ..

显示函数

show function "a"

hive 表分区操作的更多相关文章

hive表分区操作
1.修复表分区命令 msck repair table table_name; 2.添加表分区操作 alter table table_name add partition(month_id='201 ...
如何快速把hdfs数据动态导入到hive表
1. hdfs 文件 {"retCode":1,"retMsg":"Success","data":[{" ...
HDFS文件和HIVE表的一些操作
1. hadoop fs -ls 可以查看HDFS文件后面不加目录参数的话,默认当前用户的目录./user/当前用户 $ hadoop fs -ls 16/05/19 10:40:10 WARN ...
用puthivestreaming把hdfs里的数据流到hive表
全景图: 1. 创建hive表 CREATE TABLE IF NOT EXISTS newsinfo.test( name STRING ) CLUSTERED BY (name)INTO 3 ...
spark使用Hive表操作
spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作. 比如说一个修改表分区的操作一.使用HiveServer的方式 v ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
【原】创建Hive表，分号分隔符“；”引起的异常
[障碍再现] 在创建支持Map数据结构的Hive表时,抛出如下异常 hive> create table tab_map(name string,info map<string,strin ...
Hive表分区
必须在表定义时创建partition a.单分区建表语句:create table day_table (id int, content string) partitioned by (dt stri ...
sqlserver 2008表分区操作
表分区操作步骤 1.设计表进行分区的方案,水平分区.垂直分区 a.水平切割将减少表的行数,这样可以将历史数据归档,减少表大小,提高访问速度. b.垂直切割将分为主表和从表方式,将主要的列字段存放在主表 ...

随机推荐

【JavaScript】冒泡排序，字符串排序，数字排序
原理:是临近的数字两两进行比较,按照从小到大或者从大到小的顺序进行交换, function bubbleClick() { var str = "50,1,4,6,9,76,43,22,2, ...
python 中文乱码问题2
1.文件存为utf-8的格式,windows和linux两个环境都可以用 2.中文输出可以采用u方法比如:print u'成年'
Apache 80无法启动
netstat -abno后查看,经过查找为pid=4的system进程,因为是系统进程,也无法结束它,经查SQL Server ReportingServices (SQLEXPRESS) 服务占用 ...
BZOJ 1861: [Zjoi2006]Book 书架
1861: [Zjoi2006]Book 书架 Time Limit: 4 Sec Memory Limit: 64 MBSubmit: 1290 Solved: 740[Submit][Stat ...
[日常训练]yayamao的神题
Description $yayamao$是数学神犇,一天他在纸上计算起了$1/P$, 我们知道按照模拟除法可以得到准确解,例如$1/7=0.(142857),1/10=0.1(0)$.$yayama ...
myBatis foreach详解【转】
MyBatis的foreach语句详解 foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合.foreach元素的属性主要有 item,index,collection,ope ...
Linux解压，压缩小总结
linux下打包与解压的三种命令最近在读<鸟歌的Linux私房菜基础篇>,想着总结一下所读知识,有益于理解. Linux下常用的命令有三种 gzip,zcat(用于zip,gzip等) ...
（转）MySQL索引原理及慢查询优化
转自美团技术博客,原文地址:http://tech.meituan.com/mysql-index.html 建索引的一些原则: 1.最左前缀匹配原则,非常重要的原则,mysql会一直向右匹配直到遇到 ...
Windows远程数据同步工具cwRsync
1. cwRsync简介cwRsync是Rsync在Windows上的实现版本,Rsync通过使用特定算法的文件传输技术,可以在网络上传输只修改了的文件.cwRsync主要用于Windows上的远程文 ...
thinkphp3.2与phpexcel带图片生成完美案例
thinkphp3.2与phpexcel完美案例 // 导出exl public function look_down(){ $id = I('get.id'); $m = M ('offer_goo ...

hive 表分区操作

hive 表分区操作的更多相关文章

随机推荐

热门专题