0. 说明

  在 Hive 中,数据库是一个文件夹,表也是文件夹

  partition,是一个字段,是文件

  前提:在 Hive 进行 where 子句查询的时候,会将条件语句和全表进行比对,搜索出所需的数据,性能极差,partition 就是为了避免全表扫描

  bucket(桶表)

  避免多级分区导致分区目录过多,以指定字段进行 hash 分桶

  新型数据结构,以文件段的形式在分区表内部按照指定字段进行分隔

  重要特性:优化 join 的速度


1. 分区

  1.1 创建非分区表 user_nopar

    create table user_nopar
(id int, name string, age int, province string, city string)
row format delimited
fields terminated by '\t';

  1.2 加载数据

load data local inpath '/home/centos/files/user_nopar.txt' into table user_nopar;

  1.3 创建分区表 user_par

    create table user_par(id int, name string, age int)
partitioned by(province string, city string)
row format delimited
fields terminated by '\t';

  1.4 手动添加分区

  alter table user_par add partition(province='beijing',city='beijing');

  1.5 将数据加载到指定分区(分区可以不存在)

  load data local inpath '/home/centos/files/customers.txt' 
  into table user_par
  partition (province='shanxi',city='taiyuan');

  1.6 将表清空

    truncate table user_par;

  1.7 设置动态分区非严格模式,无需指定静态分区

  set hive.exec.dynamic.partition.mode=nonstrict;

  1.8 插入数据动态指定分区

insert into user_par
partition(province,city)
select * from user_nopar;

  (PS: 在动态插入分区字段时注意,字段顺序必须要和分区顺序保持一致,和字段名称无关)

  1.9 删除分区

alter table  user_par2 drop partition(province='sichuan');

  1.10 insert 数据到分区表

insert into user_par2 partition(province='USA', city='NewYork') select 10,'jerry',30;

  1.11 查看指定表的分区

  show partitions user_par2;

  1.12 建立分区的依据

  1. 以日期或时间进行分区 比如 year, month, and day
  2. 以位置进行分区 比如 country, territory, state, and city
  3. 以业务逻辑进行分区

2. 分桶

  2.1 创建桶表

create table user_bucket(id int, name string, age int) CLUSTERED BY (id) INTO 2 BUCKETS row format delimited fields terminated by '\t';

  2.2 在桶表中转储数据

  insert into user_bucket select id, name , age from user_par2;

  2.3 查看 HDFS 中桶表的数据结构

  2.4 将桶表和分区表一同使用建立新表 user_new, 分区在前

create table user_new(id int, name string, age int)
partitioned by (province string, city string)
CLUSTERED BY (id) INTO 2 BUCKETS
row format delimited
fields terminated by '\t';

  2.5 通过 load 加载数据

  load 并不会修改表中的数据结构,在桶表中的体现,就是没有将数据进行分段

load data local inpath '/home/centos/files/customers.txt' into table user_new partition (province='sichaun',city='chengdu');

  2.6 insert 数据

insert into user_new partition(province='USA', city='NewYork') select 10,'jerry',30;

  2.7 指定分桶字段

  通过 join 字段进行桶字段的确定,在以下场景中分桶字段 a => no , b => uid

SELECT a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;

3. 内部表 & 外部表

  3.1 内部表

  删除内部表的同时也会删除元数据,删除真实数据
  MANAGED_TABLE 也叫托管表,是默认表类型

  3.2 外部表

  删除外部表的同时只删除元数据,不删除真实数据
  场景:为了防止 drop 或者 truncate 表的时候数据丢失的问题
  创建 external table

    create external table user_external(id int, name string, age int);

    insert into user_external select id,name,age from user_par;

[Hive_8] Hive 设计优化的更多相关文章

  1. HBase最佳实践-列族设计优化

    本文转自hbase.收藏学习下. 随着大数据的越来越普及,HBase也变得越来越流行.会用HBase现在已经变的并不困难,然而,怎么把它用的更好却并不简单.那怎么定义'用的好'呢?很简单,在保证系统稳 ...

  2. Hive性能优化

    1.概述 继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍 首先 ...

  3. 《Java程序性能优化》学习笔记 设计优化

    豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标 执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...

  4. Web交互设计优化的简易check list

    Web交互设计优化的简易check list 00 | 时间: 2011-02-11 | 28,842 Views 交互设计, 用户研究   “优化已有产品的体验”,这是用户体验相关岗位职责中常见的描 ...

  5. (数字IC)低功耗设计入门(六)——门级电路低功耗设计优化

    三.门级电路低功耗设计优化 (1)门级电路的功耗优化综述 门级电路的功耗优化(Gate Level Power Optimization,简称GLPO)是从已经映射的门级网表开始,对设计进行功耗的优化 ...

  6. Hive篇---Hive使用优化

    一.前述 本节主要描述Hive的优化使用,Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点 1.Hive运行方式:本地模式集群模式 本地模式开启本地模式 ...

  7. Hive性能优化上的一些总结

    https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据 ...

  8. 《Java程序性能优化》之设计优化

    豆瓣读书:http://book.douban.com/subject/19969386/ 第一章 Java性能调优概述 1.性能的参考指标 执行时间: CPU时间: 内存分配: 磁盘吞吐量: 网络吞 ...

  9. 关于hive的优化

    首先hive本质就是mapreduce,那么优化就从mapreduce开始入手. 然而mapreduce的执行快慢又和map和reduce的个数有关,所以我们先从这里下手,调整并发度. 关于map的优 ...

随机推荐

  1. 分布式系统监视zabbix讲解一之zabbix安装--技术流ken

    zabbix概述 Zabbix是什么 Zabbix 是由Alexei Vladishev创建,目前由Zabbix SIA在持续开发和支持. Zabbix 是一个企业级的分布式开源监控方案. Zabbi ...

  2. 在go modules里使用go get进行包管理

    上一篇文章里我们介绍了go modules的初步使用,现在我们来更深入的了解一下如何使用go get在module中管理依赖. module下的包管理 首先我们介绍过go mod edit修改go.m ...

  3. 【转载】Sqlserver阻止保存要求重新创建表的更改

    在Sqlserver创建完表table后,后续维护过程中有时候需要往表格中新增字段,在表设计窗体中新增字段后保存,有时候会直接抛出错误信息,提示“不允许保存更改,您所做的更改要求删除并重新创建以下表” ...

  4. WPF里ItemsControl的分组实现 --listbox 实现分组

    我们在用到ItemsControl时,有时会用到分组,如ListBox,ListView,DataGrid.WPF的ItemsControl可以实现分组,是依托于GroupStyle,以ListBox ...

  5. VS2013 OpenGL 开发程序时: error LNK2019: 无法解析的外部符号 __imp____glutInitWithExit@12,error LNK2019: 无法解析的外部符号 __imp____glutCreateWindowWithExit@8

    环境:Windows 下 OpenGL ,Used in VS2013 前言:刚接触 OpenGL 的人,第一件事当然就是配置环境,说起配置环境 OpenGL 和 DirectX 相差不多,同时也基本 ...

  6. ABP框架 sql语句(转载)

    ABP.Core实现SQL语句仓储,支持EF.Core兼容的数据库  来源:https://blog.csdn.net/qq_28699537/article/details/80522680?tds ...

  7. 如何去掉C#字符串中的所有空格

    字符串行数Trim()可以去掉字符串前后的空格,如:  C# Code  string myString = " this is a test "; Console.WriteLi ...

  8. mysql使用存储过程&函数实现批量插入

    写这边文章的目的,是想结合mysql 存储过程+函数完成一个批量删除的功能吧...正好也好加深下对procedure和function的熟练操作吧...废话不多说,我就直接上表结构啦哈,如下: cre ...

  9. python基础学习(八)元组

    元组的定义 Tuple(元组)与列表类似,不同之处在于元组的 元素不能修改 元组 表示多个元素组成的序列 元组 在 Python 开发中,有特定的应用场景 用于存储 一串 信息,数据 之间使用 , 分 ...

  10. 填一个laravel视图缓存没有及时更新的坑

    1.此坑背景 laravel在渲染blade模板后,会将渲染好的结果存到storage/framework/views(默认路径,也可在配置中修改的)中,以便下次使用.但我最近总是发现修改了blade ...