hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

https://github.com/liufengji/Compression_Format_Data



log.txt 大小为18.1 M

1.2 TextFile

创建表，存储数据格式为TextFile

create table log_text (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as textfile ;

向表中加载数据

load data local inpath '/home/hadoop/log.txt' into table log_text ;

查看表的数据量大小

dfs -du -h /user/hive/warehouse/log_text;



+------------------------------------------------+--+

|                   DFS Output                   |

+------------------------------------------------+--+

| 18.1 M  /user/hive/warehouse/log_text/log.txt  |

+------------------------------------------------+--+

1.3 Parquet

创建表，存储数据格式为 parquet

create table log_parquet  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as parquet;

向表中加载数据

insert into table log_parquet select * from log_text;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_parquet;



+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 13.1 M  /user/hive/warehouse/log_parquet/000000_0  |

+----------------------------------------------------+--+

1.4 ORC

创建表，存储数据格式为ORC

create table log_orc  (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc  ;

向表中加载数据

insert into table log_orc select * from log_text ;

查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

1.5 存储文件的压缩比总结

ORC >  Parquet >  textFile

2、存储文件的查询速度测试

2.1 TextFile

select count(*) from log_text;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (16.99 seconds)

2.2 Parquet

select count(*) from log_parquet;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (17.994 seconds)

2.3 ORC

select count(*) from log_orc;

+---------+--+

|   _c0   |

+---------+--+

| 100000  |

+---------+--+

1 row selected (15.943 seconds)

2.4 存储文件的查询速度总结

ORC > TextFile > Parquet

3、存储和压缩结合

使用压缩的优势是可以最小化所需要的磁盘存储空间，以及减少磁盘和网络io操作
官网地址
- https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
ORC支持三种压缩：ZLIB,SNAPPY,NONE。最后一种就是不压缩，orc默认采用的是ZLIB压缩。

3.1 创建一个非压缩的的ORC存储方式表

1、创建一个非压缩的的ORC表

create table log_orc_none (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="NONE") ;

2、加载数据

insert into table log_orc_none select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_none;

+----------------------------------------------------+--+

|                     DFS Output                     |

+----------------------------------------------------+--+

| 7.7 M  /user/hive/warehouse/log_orc_none/000000_0  |

+----------------------------------------------------+--+

3.2 创建一个snappy压缩的ORC存储方式表

1、创建一个snappy压缩的的ORC表

create table log_orc_snappy (

track_time string,

url string,

session_id string,

referer string,

ip string,

end_user_id string,

city_id string

)

row format delimited fields terminated by '\t'

stored as orc tblproperties("orc.compress"="SNAPPY") ;

2、加载数据

insert into table log_orc_snappy select * from log_text ;

3、查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc_snappy;

+------------------------------------------------------+--+

|                      DFS Output                      |

+------------------------------------------------------+--+

| 3.8 M  /user/hive/warehouse/log_orc_snappy/000000_0  |

+------------------------------------------------------+--+

3.3 创建一个ZLIB压缩的ORC存储方式表

不指定压缩格式的就是默认的采用ZLIB压缩
- 可以参考上面创建的 log_orc 表
查看表的数据量大小

hdfs dfs -du -h /user/hive/warehouse/log_orc;

+-----------------------------------------------+--+

|                  DFS Output                   |

+-----------------------------------------------+--+

| 2.8 M  /user/hive/warehouse/log_orc/000000_0  |

+-----------------------------------------------+--+

3.4 存储方式和压缩总结

orc 默认的压缩方式ZLIB比Snappy压缩的还小。
在实际的项目开发当中，hive表的数据存储方式一般选择：orc或parquet。
由于snappy的压缩和解压缩效率都比较高，压缩方式一般选择snappy。

hive基础知识五的更多相关文章

《Programming Hive》读书笔记（两）Hive基础知识
<Programming Hive>读书笔记(两)Hive基础知识 :第一遍读是浏览.建立知识索引,由于有些知识不一定能用到,知道就好.感兴趣的部分能够多研究. 以后用的时候再具体看.并结 ...
Python基础知识(五)------字典
Python基础知识(四)------字典字典一丶什么是字典 dict关键字 , 以 {} 表示, 以key:value形式保存数据 ,每个逗号分隔键: 必须是可哈希,(不可变的数据类型 ...
Hive基础知识梳理
Hive简介 Hive是什么 Hive是构建在Hadoop之上的数据仓库平台. Hive是一个SQL解析引擎,将SQL转译成MapReduce程序并在Hadoop上运行. Hive是HDFS的一个文件 ...
Android学习之基础知识五—创建自定义控件
下面是控件和布局的继承关系: 从上面我们看到: 1.所有控件都是直接或间接继承View,所有的布局都是直接或间接继承ViewGroup 2.View是Android中最基本的UI组件,各种组件其实就是 ...
hive基础知识四
1. hive表的数据压缩 1.1 数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价 1.压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2.压缩时间:越快越好 3.已经压缩 ...
python基础知识五
数据结构基本上就是---它们可以处理一些数据的结构.或者说,它们是用来存储一组相关数据的. python中有三种内建的数据结构---列表.元祖和字典. 我们将会学习如何使用它们,以及它们如何使编程变得 ...
Hive基础知识
一.产生背景 1.MapReudce编程繁琐,需要编写大量的代码 2.HDFS中存放的都是文件,在HDFS中没有Scheme的概念,无法用SQL进行快速的查询. 二.Hive的概念 Hive是基于Ha ...
Android学习之基础知识五—编写聊天界面
第一步:在app/build.grandle添加RecyclerView依赖库第二步:在activity_main.xml文件中编写主界面:聊天.发送框.发送按钮三个部分第三步:编写Message ...
Android学习之基础知识五—RecyclerView（滚动控件）
RecyclerView可以说是增强版的ListView,不仅具有ListVIew的效果,还弥补许多ListView的不足. 一.RecyclerView的基本用法与百分比布局类似,Recycler ...

随机推荐

Navicat Premium 12 安装与激活
一.Navicat Premium 12下载官方下载地址:https://www.navicat.com.cn/download/navicat-premium 百度云盘:https://pan.b ...
pandas的使用（7）--分组
pandas的使用(7)--分组
Ajax 跨域请求，Chrome 无法显示 Set-Cookie
在使用 Ajax 进行跨域请求时,前后端均已设置 withCredentials = true,但 Chrome 前端响应无法显示 Set-Cookie. 一开始以为 Cookie 并没有设置成功,但 ...
python利用ThreadPoolExecutor实现有任务异常，就终止线程池中的所有剩余任务
先描述一下场景: 我有一批任务需要放入线程池中去处理,但是一旦线程池中有1个任务出现了异常(抛了Exception)就将线程中尚未开始的任务全部取消不执行. 需要说明的是正在执行的任务因为无法撤销,所 ...
【CTS2019】随机立方体（容斥）
[CTS2019]随机立方体(容斥) 题面 LOJ 洛谷题解做这道题目的时候不难想到容斥的方面. 那么我们考虑怎么计算至少有\(k\)个极大值的方案数. 我们首先可以把\(k\)个极大值的位置给确 ...
【ELK】elasticsearch中使用脚本报错：scripts of type [inline], operation [update] and lang [groovy] are disabled
查看ID为2的这条数据: 使用更新命令: 使用脚本对年龄+5 curl -XPOST http://192.168.6.16:9200/my_new_index/user/2/_update?pret ...
react+umi+netcore+signalR BS和客户端设备简单通讯
微信扫码登录工作用仅作记录扫码访问服务器地址实现扫码服务器地址通讯中断设备解锁采用signalR 双向异步通知中断创建控制器 ChatController 注入集线器上下文 IHubCont ...
c# 合并两个DataTable
当两个DataTable 结构相同可以用自带方法(Merge)合并 // // 摘要: // 将指定的 System.Data.DataTable 与当前的 DataTable 合并,指示是否在当前的 ...
ImageUtility辅助类
public class ImageUtility { #region 合并用户QR图片和用户头像 /// <summary> /// 合并用户QR图片和用户头像 /// </sum ...
asp.net 路由注册
webapi的路由注册 mvc的路由注册 urlRoutingModule路由

hive基础知识五

Hive 主流文件存储格式对比

1、存储文件的压缩比测试

1.1 测试数据

1.2 TextFile

1.3 Parquet

1.4 ORC

1.5 存储文件的压缩比总结

2、存储文件的查询速度测试

2.1 TextFile

2.2 Parquet

2.3 ORC

2.4 存储文件的查询速度总结

3、存储和压缩结合

3.1 创建一个非压缩的的ORC存储方式表

3.2 创建一个snappy压缩的ORC存储方式表

3.3 创建一个ZLIB压缩的ORC存储方式表

3.4 存储方式和压缩总结

hive基础知识五的更多相关文章

随机推荐

热门专题