[Hive_8] Hive 设计优化

0. 说明

　　在 Hive 中，数据库是一个文件夹，表也是文件夹

　　partition，是一个字段，是文件

　　前提：在 Hive 进行 where 子句查询的时候，会将条件语句和全表进行比对，搜索出所需的数据，性能极差，partition 就是为了避免全表扫描

　　bucket（桶表）

　　避免多级分区导致分区目录过多，以指定字段进行 hash 分桶

　　新型数据结构，以文件段的形式在分区表内部按照指定字段进行分隔

　　重要特性：优化 join 的速度

1. 分区

　　1.1 创建非分区表 user_nopar

    create table user_nopar

    (id int, name string, age int, province string, city string)

    row format delimited

    fields terminated by '\t';

　　1.2 加载数据

load data local inpath '/home/centos/files/user_nopar.txt' into table user_nopar;

　　1.3 创建分区表 user_par

    create table user_par(id int, name string, age int)

    partitioned by(province string, city string)

    row format delimited

    fields terminated by '\t';

　　1.4 手动添加分区

　　alter table user_par add partition(province='beijing',city='beijing');

　　1.5 将数据加载到指定分区(分区可以不存在)

　　load data local inpath '/home/centos/files/customers.txt' 
　　into table user_par
　　partition (province='shanxi',city='taiyuan');

　　1.6 将表清空

    truncate table user_par;

　　1.7 设置动态分区非严格模式，无需指定静态分区

　　set hive.exec.dynamic.partition.mode=nonstrict;

　　1.8 插入数据动态指定分区

insert into user_par

partition(province,city)

select * from user_nopar;

　　(PS: 在动态插入分区字段时注意，字段顺序必须要和分区顺序保持一致，和字段名称无关)

　　1.9 删除分区

alter table  user_par2 drop partition(province='sichuan');

　　1.10 insert 数据到分区表

insert into user_par2 partition(province='USA', city='NewYork') select 10,'jerry',30;

　　1.11 查看指定表的分区

　　show partitions user_par2;

　　1.12 建立分区的依据

以日期或时间进行分区比如 year, month, and day
以位置进行分区比如 country, territory, state, and city
以业务逻辑进行分区

2. 分桶

　　2.1 创建桶表

create table user_bucket(id int, name string, age int) CLUSTERED BY (id) INTO 2 BUCKETS row format delimited fields terminated by '\t';

　　2.2 在桶表中转储数据

　　insert into user_bucket select id, name , age from user_par2;

　　2.3 查看 HDFS 中桶表的数据结构

　　2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

create table user_new(id int, name string, age int)

partitioned by (province string, city string)

CLUSTERED BY (id) INTO 2 BUCKETS

row format delimited

fields terminated by '\t';

　　2.5 通过 load 加载数据

　　load 并不会修改表中的数据结构，在桶表中的体现，就是没有将数据进行分段

load data local inpath '/home/centos/files/customers.txt' into table user_new partition (province='sichaun',city='chengdu');

　　2.6 insert 数据

insert into user_new partition(province='USA', city='NewYork') select 10,'jerry',30;

　　2.7 指定分桶字段

　　通过 join 字段进行桶字段的确定，在以下场景中分桶字段 a => no , b => uid

SELECT a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;

3. 内部表 & 外部表

　　3.1 内部表

　　删除内部表的同时也会删除元数据，删除真实数据
　　MANAGED_TABLE 也叫托管表，是默认表类型

　　3.2 外部表

　　删除外部表的同时只删除元数据，不删除真实数据
　　场景：为了防止 drop 或者 truncate 表的时候数据丢失的问题
　　创建 external table

    create external table user_external(id int, name string, age int);

    insert into user_external select id,name,age from user_par;

[Hive_8] Hive 设计优化的更多相关文章

HBase最佳实践－列族设计优化
本文转自hbase.收藏学习下. 随着大数据的越来越普及,HBase也变得越来越流行.会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单.那怎么定义'用的好'呢?很简单,在保证系统稳 ...
Hive性能优化
1.概述继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍首先 ...
《Java程序性能优化》学习笔记设计优化
豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...
Web交互设计优化的简易check list
Web交互设计优化的简易check list 00 | 时间: 2011-02-11 | 28,842 Views 交互设计, 用户研究 “优化已有产品的体验”,这是用户体验相关岗位职责中常见的描 ...
（数字IC）低功耗设计入门（六）——门级电路低功耗设计优化
三.门级电路低功耗设计优化 (1)门级电路的功耗优化综述门级电路的功耗优化(Gate Level Power Optimization,简称GLPO)是从已经映射的门级网表开始,对设计进行功耗的优化 ...
Hive篇---Hive使用优化
一.前述本节主要描述Hive的优化使用,Hive的优化着重强调一个把Hive SQL 当做Mapreduce程序去优化二.主要优化点 1.Hive运行方式:本地模式集群模式本地模式开启本地模式 ...
Hive性能优化上的一些总结
https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据 ...
《Java程序性能优化》之设计优化
豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...
关于hive的优化
首先hive本质就是mapreduce,那么优化就从mapreduce开始入手. 然而mapreduce的执行快慢又和map和reduce的个数有关,所以我们先从这里下手,调整并发度. 关于map的优 ...

随机推荐

分布式系统监视zabbix讲解一之zabbix安装--技术流ken
zabbix概述 Zabbix是什么 Zabbix 是由Alexei Vladishev创建,目前由Zabbix SIA在持续开发和支持. Zabbix 是一个企业级的分布式开源监控方案. Zabbi ...
在go modules里使用go get进行包管理
上一篇文章里我们介绍了go modules的初步使用,现在我们来更深入的了解一下如何使用go get在module中管理依赖. module下的包管理首先我们介绍过go mod edit修改go.m ...
【转载】Sqlserver阻止保存要求重新创建表的更改
在Sqlserver创建完表table后,后续维护过程中有时候需要往表格中新增字段,在表设计窗体中新增字段后保存,有时候会直接抛出错误信息,提示“不允许保存更改,您所做的更改要求删除并重新创建以下表” ...
WPF里ItemsControl的分组实现 --listbox 实现分组
我们在用到ItemsControl时,有时会用到分组,如ListBox,ListView,DataGrid.WPF的ItemsControl可以实现分组,是依托于GroupStyle,以ListBox ...
VS2013 OpenGL 开发程序时: error LNK2019: 无法解析的外部符号 __imp____glutInitWithExit@12,error LNK2019: 无法解析的外部符号 __imp____glutCreateWindowWithExit@8
环境:Windows 下 OpenGL ,Used in VS2013 前言:刚接触 OpenGL 的人,第一件事当然就是配置环境,说起配置环境 OpenGL 和 DirectX 相差不多,同时也基本 ...
ABP框架 sql语句（转载）
ABP.Core实现SQL语句仓储,支持EF.Core兼容的数据库来源:https://blog.csdn.net/qq_28699537/article/details/80522680?tds ...
如何去掉C#字符串中的所有空格
字符串行数Trim()可以去掉字符串前后的空格,如: C# Code string myString = " this is a test "; Console.WriteLi ...
mysql使用存储过程&函数实现批量插入
写这边文章的目的,是想结合mysql 存储过程+函数完成一个批量删除的功能吧...正好也好加深下对procedure和function的熟练操作吧...废话不多说,我就直接上表结构啦哈,如下: cre ...
python基础学习（八）元组
元组的定义 Tuple(元组)与列表类似,不同之处在于元组的元素不能修改元组表示多个元素组成的序列元组在 Python 开发中,有特定的应用场景用于存储一串信息,数据之间使用 , 分 ...
填一个laravel视图缓存没有及时更新的坑
1.此坑背景 laravel在渲染blade模板后,会将渲染好的结果存到storage/framework/views(默认路径,也可在配置中修改的)中,以便下次使用.但我最近总是发现修改了blade ...

[Hive_8] Hive 设计优化

0. 说明

1. 分区

1.1 创建非分区表 user_nopar

1.2 加载数据

1.3 创建分区表 user_par

1.4 手动添加分区

1.5 将数据加载到指定分区(分区可以不存在)

1.6 将表清空

1.7 设置动态分区非严格模式，无需指定静态分区

1.8 插入数据动态指定分区

1.9 删除分区

1.10 insert 数据到分区表

1.11 查看指定表的分区

1.12 建立分区的依据

2. 分桶

2.1 创建桶表

2.2 在桶表中转储数据

2.3 查看 HDFS 中桶表的数据结构

2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

2.5 通过 load 加载数据

2.6 insert 数据

2.7 指定分桶字段

3. 内部表 & 外部表

3.1 内部表

3.2 外部表

[Hive_8] Hive 设计优化的更多相关文章

随机推荐

热门专题

　　1.1 创建非分区表 user_nopar

　　1.2 加载数据

　　1.3 创建分区表 user_par

　　1.4 手动添加分区

　　1.5 将数据加载到指定分区(分区可以不存在)

　　1.6 将表清空

　　1.7 设置动态分区非严格模式，无需指定静态分区

　　1.8 插入数据动态指定分区

　　1.9 删除分区

　　1.10 insert 数据到分区表

　　1.11 查看指定表的分区

　　1.12 建立分区的依据

　　2.1 创建桶表

　　2.2 在桶表中转储数据

　　2.3 查看 HDFS 中桶表的数据结构

　　2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

　　2.5 通过 load 加载数据

　　2.6 insert 数据

　　2.7 指定分桶字段

　　3.1 内部表

　　3.2 外部表