3.4-3.6 Hive Storage Format

一、file format

ORCFile在HDP 2:更好的压缩，更好的性能：

https://zh.hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/

官方ORCfile介绍：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

官方PARQUET介绍：

https://cwiki.apache.org/confluence/display/Hive/Parquet

file_format:
  : SEQUENCEFILE
  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)
  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)
  | ORC         -- (Note: Available in Hive 0.11.0 and later)
  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)
  | AVRO        -- (Note: Available in Hive 0.14.0 and later)
  | JSONFILE    -- (Note: Available in Hive 4.0.0 and later)
  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
 
数据存储：
    按行存储
    按列存储
 
#TEXTFILE ：行式存储
#其他的都是列存储，ORC是对RCFILE的优化；ORC和PARQUET用的较多；

二、测试

我们建三张表导入同样的数据，看数据存储的大小；

1、TEXTFILE

#建表
hive (default)> create table page_views(
              > track_time string,
              > url string,
              > session_id string,
              > referer string,
              > ip string,
              > end_user_id string,
              > city_id string
              > )
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > STORED AS TEXTFILE;
OK
Time taken: 0.089 seconds
 
#加载数据
hive (default)> load data local inpath '/opt/datas/page_views.data' into table page_views;
Copying data from file:/opt/datas/page_views.data
Copying file: file:/opt/datas/page_views.data
Loading data to table default.page_views
Table default.page_views stats: [numFiles=1, numRows=0, totalSize=19014993, rawDataSize=0]
OK
Time taken: 0.326 seconds

2、ORCFILE

hive (default)> create table page_views_orc(
              > track_time string,
              > url string,
              > session_id string,
              > referer string,
              > ip string,
              > end_user_id string,
              > city_id string
              > )
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > STORED AS orc;
OK
Time taken: 0.04 seconds
 
hive (default)> insert into table page_views_orc select * from page_views;

3、PARQUET

hive (default)> create table page_views_parquet(
              > track_time string,
              > url string,
              > session_id string,
              > referer string,
              > ip string,
              > end_user_id string,
              > city_id string
              > )
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > STORED AS parquet;
OK
Time taken: 0.037 seconds
 
hive (default)> insert into table page_views_parquet select * from page_views;

4、查看各个表文件大小

hive (default)> dfs -du -h /user/hive/warehouse/page_views/;
18.1 M  /user/hive/warehouse/page_views/page_views.data
 
hive (default)> dfs -du -h /user/hive/warehouse/page_views_orc/;
2.6 M  /user/hive/warehouse/page_views_orc/000000_0
 
hive (default)> dfs -du -h /user/hive/warehouse/page_views_parquet/;
13.1 M  /user/hive/warehouse/page_views_parquet/000000_0
 
#明显的可以看出，数据相同时，存储为不同的格式：
TEXTFILE格式的表：18.1M
ORCFILE格式的表：2.6M
PARQUET格式的表：13.1M

5、查询测试

#TEXTFILE表查询
hive (default)> select session_id, count(*) cnt from page_views group by session_id order by cnt desc limit 30;
......
Time taken: 39.427 seconds, Fetched: 30 row(s)        #39.427秒
 
#ORCFILE表查询
hive (default)> select session_id, count(*) cnt from page_views_orc group by session_id order by cnt desc limit 30;
......
Time taken: 38.319 seconds, Fetched: 30 row(s)        #38.319秒
 
#可见orc格式的表，不仅数据体积小很多，查询也有优势

三、ORCFILE优化

创建ORC表时，可以使用许多表属性进一步优化ORC的工作方式：

1、例如，假设您想使用snappy压缩而不是zlib压缩。方法如下:

#建表
hive (default)> create table page_views_orc_snappy(
              > track_time string,
              > url string,
              > session_id string,
              > referer string,
              > ip string,
              > end_user_id string,
              > city_id string
              > )
              > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
              > STORED AS orc tblproperties ("orc.compress"="SNAPPY");
OK
Time taken: 0.033 seconds
 
#插入数据
hive (default)> insert into table page_views_orc_snappy select * from page_views;
 
#查询
hive (default)> dfs -du -h /user/hive/warehouse/page_views_orc_snappy/;
3.8 M  /user/hive/warehouse/page_views_orc_snappy/000000_0
 
#此时发现，用snappy压缩完，数据反而比orcfile表数据还大了，怎么回事呢？
因为建ORCFILE表时，不指定压缩，默认使用ZLIB压缩，但是指定了snappy压缩就会使用snappy，
而且ZLIB的压缩比大于snappy，所以此时的snappy压缩稍微大一些；

总结：

在实际的项目开发当中，hive表的数据
    *存储格式I orcfile/qarquet    #推荐
    *数据压缩
        snappy        #推荐

3.4-3.6 Hive Storage Format的更多相关文章

Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
【转】Hive配置文件中配置项的含义详解（收藏版）
http://www.aboutyun.com/thread-7548-1-1.html 这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用.更多内容,可以查看内容问题导读:1 ...
hive学习笔记——表的基本的操作
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 ...
[Hive - LanguageManual] Alter Table/Partition/Column
Alter Table/Partition/Column Alter Table Rename Table Alter Table Properties Alter Table Comment Add ...
[Hive - LanguageManual] Create/Drop/Alter Database Create/Drop/Truncate Table
Hive Data Definition Language Hive Data Definition Language Overview Create/Drop/Alter Database Crea ...
Hive调优实践
1 文件格式的选择 ORC格式确实要比textFile要更适合于hive,查询速度会提高20-40%左右例子1: youtube1的文件格式是TextFIle,youtube3的文件格式是orc h ...
hadoop记录-hive常见设置
分区表 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;create tabl ...
hive参数配置详细
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.i ...
Optimizing Hive queries for ORC formatted tables
Short Description: Hive configuration settings to optimize your HiveQL when querying ORC formatted t ...

随机推荐

Hnu 11187 Emoticons :-) （ac自己主动机+贪心）
题目大意: 破坏文本串.使之没有没有出现表情.破坏就是用空格替换.问最少须要破坏多少个字符. 思路分析: 初看跟Hdu 2457 没什么差别,事实上Hdu2457是要求将字符替换成ACGT,而这个仅仅 ...
WPF简单计算器
RESTful设计模式状态码code说明
一种软件架构风格,设计风格而不是标准,只是提供了一组设计原则和约束条件.它主要用于客户端和服务器交互类的软件.基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制. 下面是标准RESTfu ...
CentOS系统时间修改
1. 实体机器上安装CentOS $date -s '2015-03-03 13:34:00' 2. 虚拟机上安装的CentOS #查看系统时间和硬件时间 date hwclock --show #设 ...
多用GCD，少用performSelect系列方法
例如,要延后执行某项任务,可以有下面两种实现方式,而我们应该优先考虑第二种: // Using performSelect: withObject: afterDelay: [self perform ...
[转]***换机房换ip之后不能连外网
***换机房换ip之后不能连外网时间 2015-07-21 15:17:16 Wendal随笔原文 http://wendal.net/2015/07/21.html 主题 iptables ...
虚拟化（五）：vsphere高可用群集与容错（存储DRS是一种可用于将多个数据存储作为单个数据存储群集进行管理的功能）
vsphere高级功能需要vcenter server和共享存储的支持才能实现.vsphere的高级功能有 vmotion.storage vmotion.vsphere HA.vsphere DRS ...
Delphi快捷键大全
Delphi快捷键大全在过程.函数.事件内部, SHIFT+CTRL+向上的方向键可跳跃到相应的过程.函数.事件的定义．相反,在过程.函数.事件的定义处,SHIFT+CTRL+向下的方向键可跳跃 ...
Java 获取当前日期和时间
原文地址:http://www.blogjava.net/parable-myth/archive/2013/01/17/394364.html 有三种方法: 方法一:用java.util.Date类 ...
03-树2 List Leaves（25 point(s)）【Tree】
03-树2 List Leaves(25 point(s)) Given a tree, you are supposed to list all the leaves in the order of ...

3.4-3.6 Hive Storage Format

3.4-3.6 Hive Storage Format的更多相关文章

随机推荐

热门专题