Hadoop Hive概念学习系列之hive里的桶（十一）

　　不多说，直接上干货！

Hive还可以把表或分区，组织成桶。将表或分区组织成桶有以下几个目的：

　　第一个目的是为看取样更高效，因为在处理大规模的数据集时，在开发、测试阶段将所有的数据全部处理一遍可能不太现实，这时取样就必不可少。

　　第二个目的是为了获得更好的查询处理效率。

　　桶为了表提供了额外的结构，Hive在处理某些查询时利用这个结构，能给有效地提高查询效率。

　　桶是通过对指定列进行哈希计算来实现的，通过哈希值将一个列名下的数据切分为一组桶，并使每个桶对应于该列名下的一个存储文件。

在建立桶之前，需要设置hive.enforce.bucketing属性为true，使得hive能识别桶。

　　以下为创建带有桶的表的语句：

CREATE TABLE bucketed_user(

id INT,

name String

)

CLUSTERED BY (id) INTO 4 BUCKETS;

　　向桶中插入数据，这里按照用户id分成了4个桶，在插入数据时对应4个reduce操作，输出4个文件。

　　分区中的数据可以被进一步拆分成桶，bucket，不同于分区对列直接进行拆分，桶往往使用列的哈希值进行数据采样。

在分区数量过于庞大以至于可能导致文件系统崩溃时，建议使用桶。

　　桶的数量是固定的。

　　Hive使用基于列的哈希函数对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

　　注意，hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。

　　哈希函数的选择依赖于桶操作所针对的列的数据类型。除了数据采样，桶操作也可以用来实现高效的Map端连接操作。

　　记住，分桶比分区，更高的查询效率。

如何进行桶操作？

　　例子1

1、创建临时表 student_tmp，并导入数据。

hive> desc student_tmp;

hive> select * from student_tmp;

2、创建 student 表。经过分区操作过后的表已经被拆分成2个桶。

create table student(

id int,

age int,

name string

)

partitioned by (stat_date string)

clustered by (id) sorted by(age) into 2 bucket

row format delimited fields terminated by ',';

　　分区中的数据可以被进一步拆分成桶！！！正确理解

　　所有，桶，先partitioned by (stat_date string)

　　　　　　，再，clustered by (id) sorted by(age) into 2 bucket

3、设置环境变量。

hive> set hive.enforce.bucketing=true;

4、插入数据

hive> from student_tmp

insert overwrite table student partition(stat_date='2015-01-19')

select id,age,name where stat_date='2015-01-18' sort by age;

　　这都是固定的格式，一环扣一环的。

5、查看文件目录
$ hadoop fs -ls /usr/hive/warehouse/student/stat_date=2015-01-19/

6、查看 sampling 数据。
tablesample 是抽样语句，语法如下
tablesample(bucket x out of y)
y 必须是 table 中 BUCKET 总数的倍数或者因子。

例子2

　　在下面的例子中，经过分区操作过后的表已经被拆分成100个桶。

CREATE EXTERNAL TABLE videos_b(

prodicer string,

title string,

category string

)

PARTITIONED BY(year int)

CLUSTERED BY(title)INTO 100 BUCKETS;

　　现在，我们开始填充这张带桶操作的表：

set hive.enfirce.bucketinig=true;

FROM videos

INSERT OVERWRITE TABLE videos_b

PARTITION(year=)

SELECT producer,title,string WHERE year=;

　　如果不使用set hive.enforce.bucketing=true这项属性，我们需要显式地声明set mapred.reduce.tasks=100来设置Reducer的数量。

此外，还需要在SELECT语句后面加上CLUSTERBY来实现INSERT查询。

　　下面是不使用桶设置的例子：

set mapred.reduce.tasks=;

FROM videos

INSERT OVERWRITE TABLE videos_b

PARTITION(year=)

SELECT producer,title,string WHERE year= CLUSTER BY title;

在Hive的文档中可以找到有关桶的更多细节：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

Hadoop Hive概念学习系列之hive里的桶（十一）的更多相关文章

Hadoop Hive概念学习系列之hive里的索引（十三）
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键. Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要 ...
Hadoop Hive概念学习系列之hive里的扩展接口（CLI、Beeline、JDBC）（十六）
<Spark最佳实战陈欢>写的这本书,关于此知识点,非常好,在94页. hive里的扩展接口,主要包括CLI(控制命令行接口).Beeline和JDBC等方式访问Hive. CLI和B ...
Hadoop Hive概念学习系列之hive里如何显示当前数据库及传参（十九）
这个小知识点,看似简单,用处极大. $ hive --hiveconf hive.cli.print.current.db=true $ hive --hiveconf hive.cli.print. ...
Hadoop Hive概念学习系列之hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建（五）
说在前面的话以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以 ...
Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）
在一些特定的业务场景下,使用hive默认的配置对数据进行分析,虽然默认的配置能够实现业务需求,但是分析效率可能会很低. Hive有针对性地对不同的查询进行了优化.在Hive里可以通过修改配置的方式进行 ...
Hadoop Hive概念学习系列之hive里的分区（九）
为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”. 分区是表的部分列的集合,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助. 分 ...
Hadoop Hive概念学习系列之hive里的JDBC编程入门（二十二）
Hive与JDBC示例在使用 JDBC 开发 Hive 程序时, 必须首先开启 Hive 的远程服务接口.在hive安装目录下的bin,使用下面命令进行开启: hive -service hives ...
Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）
Hive可以通过实现用户定义函数(User-Defined Functions,UDF)进行扩展(事实上,大多数Hive功能都是通过扩展UDF实现的).想要开发UDF程序,需要继承org.apache ...
Hadoop Hive概念学习系列之hive里的视图（十二）
不多说,直接上干货! 可以先,从MySQL里的视图概念理解入手视图是由从数据库的基本表中选取出来的数据组成的逻辑窗口,与基本表不同,它是一个虚表.在数据库中,存放的只是视图的定义,而不存放视图包含的 ...

随机推荐

MaxScale初探
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://mrcto.blog.51cto.com/1923168/1437287 内容预览 ...
scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置
在scrapy的反爬中,常用的几个配置,简单总结了下: User-Agent中间件: from fake_useragent import UserAgent class RandomUserAgen ...
[bzoj1070][SCOI2007]修车[ 网络流]
把每个工人拆成N个点.记为A[i,j]表示第i个工人修倒数第j辆车.每个车跟所有N*M个工人拆出的点连边.流量为1,费用为$time[i,j]*k$.源和每辆车连边,N*M个点和汇连边,流量都为1,费 ...
如何取消codeblocks对msvcr100.dll的依赖？
用VS2010或是codeblocks开发的程序,在开发之外的机器上,可能会提前缺少msvcr100.dll之类的文件. 可以用如何设置,取消其对库文件的依赖. 当然,还要注意创建程序的类型.(补) ...
Hadoop2.0安装之非HA版
主要步骤跟Hadoop1.0(1.0安装地址)一致,主要在配置这块有更改安装下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.6.5 ...
gradle: 修改gradle-xx-bin.zip下载地址
进入gradle/wrapper/目录,修改gradle-wrapper.properties文件, 将distributionUrl修改为自己的下载地址即可. 另外修改gradle reposito ...
ArcGIS 10 Engine DevelopKit 之安装与帮助;VBA,跨平台CPP,JAVA,ArcGIS Engine DevelopKit 10 的帮助如何打开
你看到的这个文章来自于http://www.cnblogs.com/ayanmw ArcGIS Engine Developer Kit10 可以从VeryCD上下载到.其不需要破解,只需要你有一个已 ...
Cocos2d-x教程(34)－三维物体OBB碰撞检測算法
欢迎增加Cocos2d-x 交流群:193411763 个中心点.1个旋转矩阵和3个1/2边长(注:一个旋转矩阵包括了三个旋转轴,若是二维的OBB包围盒则是一个中心点,两个旋转轴,两个1/2边长). ...
Solidworks如何整体缩放零件
比如我有一个飞机模型,当前长度有20000mm,即20M,我想要整体缩放点击插入-特征-缩放比例在左侧的框中输入所有要缩放的零部件(如果全部缩放,则全部框选所有零件,就可以把所有零件都放到 ...
为XCode 6 加入新建类模板
用XCode 6在改动之前用XCode 5 的代码的时候突然间发现 XCode 6已经把新建带有 .xib 类的模板给删去了.而项目的新需求中又要用到新建带有 .xib 的类(用惯了~),全部不得不又 ...

Hadoop Hive概念学习系列之hive里的桶（十一）

Hadoop Hive概念学习系列之hive里的桶（十一）的更多相关文章

随机推荐

热门专题