hive parition的使用，分dynamic和static两种

partition是hive提供的一种机制：用户通过指定一个或多个partition key，决定数据存放方式，进而优化数据的查询

一个表可以指定多个partition key，每个partition在hive中以文件夹的形式存在。

实例（static partition）：

编辑文件：/home/work/data/test3.txt; /home/work/data/test4.txt;

$ cat /home/work/data/test3.txt

1,zxm

2,ljz

3,cds

4,mac

5,android

6,symbian

7,wp

$ cat /home/work/data/test4.txt

8,zxm

9,ljz

10,cds

11,mac

12,android

13,symbian

14,wp

建表：

hive> create table student_tmp(id INT, name STRING)

> partitioned by(academy STRING, class STRING)

> row format delimited fields terminated by ',';

OK

Time taken: 6.505 seconds

id，name是真实列，partition列academy和class是伪列

load数据：(此处直接load数据进partition，在hive 0.6之前的版本，必须先创建好partition，数据才能导入)

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp
partition(academy='computer', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=computer, class=034)

OK

Time taken: 0.898 seconds

hive> load data local inpath '/home/work/data/test3.txt' into table student_tmp
partition(academy='physics', class='034');

Copying data from file:/home/work/data/test3.txt

Copying file: file:/home/work/data/test3.txt

Loading data to table default.student_tmp partition (academy=physics, class=034)

OK

Time taken: 0.256 seconds

查看hive文件结构：

$ hadoop fs -ls /user/hive/warehouse/student_tmp/

Found 2 items

drwxr-xr-x - work supergroup 0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer

drwxr-xr-x - work supergroup 0 2012-07-30 19:00 /user/hive/warehouse/student_tmp/academy=physics

$ hadoop fs -ls /user/hive/warehouse/student_tmp/academy=computer

Found 1 items

drwxr-xr-x - work supergroup 0 2012-07-30 18:47 /user/hive/warehouse/student_tmp/academy=computer/class=034

查询数据：

hive> select * from student_tmp where academy='physics';

OK

1 zxm physics 034

2 ljz physics 034

3 cds physics 034

4 mac physics 034

5 android physics 034

6 symbian physics 034

7 wp physics 034

Time taken: 0.139 seconds

以上是static partition的示例，static partition即由用户指定数据所在的partition，在load数据时，指定partition(academy='computer', class='034');

static partition常适用于使用处理时间作为partition key的例子。

但是，我们也常常会遇到需要向分区表中插入大量数据，并且插入前不清楚数据归宿的partition，此时，我们需要dynamic partition。

使用动态分区需要设置hive.exec.dynamic.partition参数值为true。

可以设置部分列为dynamic partition列，例如：partition(academy='computer', class);

也可以设置所有列为dynamic partition列，例如partition(academy, class);

设置所有列为dynamic partition列时，需要设置hive.exec.dynamic.partition.mode=nonstrict

需要注意的是，主分区为dynamic partition列，而副分区为static partition列是不允许的，例如partition(academy, class=‘034’);是不允许的

示例（dynamic partition）：

建表

hive> create table student(id INT, name STRING)

> partitioned by(academy STRING, class STRING)

> row format delimited fields terminated by ',';

OK

Time taken: 0.393 seconds

设置参数

hive> set hive.exec.dynamic.partition.mode=nonstrict;

hive> set hive.exec.dynamic.partition=true;

导入数据：

hive> insert overwrite table student partition(academy, class)

> select id,name,academy,class from student_tmp

> where class='034';

Total MapReduce jobs = 2

.........

OK

Time taken: 29.616 seconds

查询数据：

hive> select * from student where academy='physics';

OK

1 zxm physics 034

2 ljz physics 034

3 cds physics 034

4 mac physics 034

5 android physics 034

6 symbian physics 034

7 wp physics 034

Time taken: 0.165 seconds

查看文件：

$ hadoop fs -ls /user/hive/warehouse/student/

Found 2 items

drwxr-xr-x - work supergroup 0 2012-07-30 19:22 /user/hive/warehouse/student/academy=computer

drwxr-xr-x - work supergroup 0 2012-07-30 19:22 /user/hive/warehouse/student/academy=physics

总结：

hive partition是通过将数据拆分成不同的partition放入不同的文件，从而减少查询操作时数据处理规模的手段。

例如，Hive Select查询中，如果没有建partition，则会扫描整个表内容，这样计算量巨大。如果我们在相应维度做了partition，则处理数据规模可能会大大减少。

|

附partition相关参数：

hive.exec.dynamic.partition（缺省false）：设置为true允许使用dynamic partition

hive.exec.dynamic.partition.mode（缺省strick）：设置dynamic partition模式（nostrict允许所有partition列都为dynamic partition，strict不允许）

hive.exec.max.dynamic.partitions.pernode （缺省100）：每一个mapreduce job允许创建的分区的最大数量，如果超过了这个数量就会报错

hive.exec.max.dynamic.partitions （缺省1000）：一个dml语句允许创建的所有分区的最大数量

hive.exec.max.created.files （缺省100000）：所有的mapreduce job允许创建的文件的最大数量

reference:

Dynamic Partitions

hive中简单介绍分区表(partition table)，含动态分区(dynamic partition)与静态分区(static partition)

hive parition的使用，分dynamic和static两种的更多相关文章

POJ 1182食物链（分集合以及加权两种解法）种类并查集的经典
题目链接:http://icpc.njust.edu.cn/Problem/Pku/1182/ 题意:给出动物之间的关系,有几种询问方式,问是真话还是假话. 定义三种偏移关系: x->y 偏移量 ...
Java调用外部类定义的方法（Static与无Static两种）
首先定义方法 public class Dy { public int Add(int x,int y){ //定义Add(),该方法没有被static修饰 return x+y; } public ...
Hive动态分区和分桶（八）
Hive动态分区和分桶 1.Hive动态分区 1.hive的动态分区介绍 hive的静态分区需要用户在插入数据的时候必须手动指定hive的分区字段值,但是这样的话会导致用户的操作复杂度提高,而且在 ...
hive的排序，分組练习
hive的排序,分組练习数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...
Hive基础语法5分钟速览
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过 ...
hive：(group by, having;order by)的使用；group by+多个字段，以及wiki说的group by两种使用限制验证
hive> select * from app_data_stats_historical where os='1' group by dt limit 100; 出现结果如下: 2014-01 ...
Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...
java中线程分两种，守护线程和用户线程。
java中线程分为两种类型:用户线程和守护线程. 通过Thread.setDaemon(false)设置为用户线程: 通过Thread.setDaemon(true)设置为守护线程. 如果不设置次属性 ...
华为 1.static有什么用途？（请至少说明两种）
1.static有什么用途?(请至少说明两种) 1)在函数体,一个被声明为静态的变量在这一函数被调用过程中维持其值不变. 2) 在模块内(但在函数体外),一个被声明为静态的变量可以被模块内所用函数访问 ...

随机推荐

计算机网络之IP协议族
网际协议IP 与IP协议配套使用的还有三个协议: 地址解析协议 ARP (Address Resolution Protocol) 网际控制报文协议 ICMP (Internet Control ...
联想G510F1F2..功能键和FN+功能键反过来
进入BIOS, 将HotKey Mode 修改为Disabled,右边有详细说明:
gloox配置聊天室
gloox配置聊天室 (金庆的专栏) gloox是XMPP协议的C++客户端库.以下代码测试创建多人聊天室(MUC), 并进行配置.参照gloox中的muc示例代码.gloox代码示例中没有聊天室的配 ...
理解性能的奥秘——应用程序中慢，SSMS中快（5）——案例：如何应对参数嗅探
本文属于<理解性能的奥秘--应用程序中慢,SSMS中快>系列接上文:理解性能的奥秘--应用程序中慢,SSMS中快(4)--收集解决参数嗅探问题的信息首先我们需要明白,参数嗅探本身不是问 ...
Spring之ORM模块
ORM模块对Hibernate.JDO.TopLinkiBatis等ORM框架提供支持 ORM模块依赖于dom4j.jar.antlr.jar等包在Spring里,Hibernate的资源要交给Sp ...
大数据基础知识问答----hadoop篇
handoop相关知识点 1.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速 ...
x264源代码简单分析：宏块分析（Analysis）部分-帧内宏块（Intra）
===================================================== H.264源代码分析文章列表: [编码 - x264] x264源代码简单分析:概述 x26 ...
java之异常处理
异常Exception我们分为 |--RuntimeException运行期异常,我们需要修正代码 |--非RuntimeException 编译期异常,必须处理的,否则程序编译不通过异常有两种处理 ...
指令汇B新闻客户端开发（一）新手引导页开发
首先做开发的时候应该有一个闪屏页面和新手引导页, 我相信闪屏页面大家应该都会了,那么先看到新手引导页了. 我们可以看到这其实是一个ViewPager,我们也可以看到这是3个引导页,那么首先来看一下布局 ...
6.2、Android Studio内存
Android Monitor提供了一个Memory Monitor,所以你可以非常容易的监测应用性能和内存使用,可以发现无用的对象,本地内存泄漏和连接设备的内存使用.Memory Monitor显示 ...

hive parition的使用，分dynamic和static两种

hive parition的使用，分dynamic和static两种的更多相关文章

随机推荐

热门专题