本文在Hive-ORC文件存储格式的理论基础上，进一步分析一个实际的Hive ORC表中的数据存储形式。

一、表结构

　　库名+表名：fileformat.test_orc

字段	类型
category_id	string
product_id	int
brand_id	int
price	double
category_id_2	string

　　

　　在hive中命令desc formatted fileformat.test_orc;的结果如下图：

　　

　　

　　

　　根据上图中的location信息，查看在HDFS上的文件：

　　

　　

二、查看dump文件

　　hive提供了一个--orcfiledump参数用于查看HDFS上ORC表格的文件信息，在hive-0.13版本中的使用方法为：hive --orcfiledump <location-of-orc-file>，其他版本的使用方法可以去官方文档中查找。

　　下面是命令hive --orcfiledump /user/hive/warehouse/fileformat.db/test_orc/000000_0的查询结果

　　

三、dump文件分析

　　接下来的分析，请对照着文章Hive-ORC文件存储格式中的图1-ORC文件结构图进行。

　　使用hql语句，统计出各字段的count, min, max, sum信息如下：

字段	COUNT	MIN	MAX	SUM
category_id	1000000	5011	975673	4.0222868968E11
product_id	1000000	968	50997770	27158964508399
brand_id	999130	0	1026427	774991825568
price	1000000	-0.0092	358000.0	1.8953626711045265E8
category_id_2	1000000	5010	5996	5.183530839E9

　　

　　从dump文件的图片中可以看出，大致分成四个部分：

1、表结构信息

　　记录整张表的记录数，压缩方式，压缩大小，以及表结构。在表结构部分，ORC将整张表的所有字段构造成一个大的struct结构。对应图1-ORC文件结构图中的Postscript部分。

２、Stripe统计信息

　　统计当前HDFS文件对应Stripe的信息，包括各个字段的count，min, max, sum信息。对于最外层的Struct，只统计其count值。由于这张表数据量不大，当前HDFS文件中只有一个Stripe。对应图1-ORC文件结构图中的Stripe Footer部分。

　　

3、File统计信息

　　统计内容和第二部分一致，不过这里统计的整张表的每个字段count, min, max, sum信息。对应图1-ORC文件结构图中的FileFooter部分。

　　这里我们将dump文件中的统计信息，与各字段实际统计信息作对比。通过与上面表格中各字段统计信息对比，发现对于int类型和double类型的字段，min, max, sum的结果都是匹配的。但是对于string类型的字段，仅仅只有min, max统计结果一致，sum的结果不相同。

4、Stripe详细信息

　　统计各Stripe的offset，总记录行数等Stripe层次的信息。该Stripe中各字段的Index Data和Row Data，以及每个字段的编码方式。

　　前面一行Stripe: offset: 3 data: 7847351 rows: 1000000 tail: 132 index: 7936应该也是保存在FileFooter中，后面各个字段统计信息对应图1-ORC文件结构图中的Index Data和Row Data部分。

　　从dump文件中的数据可以看出，每个字段的ROW_INDEX以及DATA信息是保存在一块连续空间中的，这块文件从offset=3开始。这也说明图1-ORC文件结构图中Row Data区的数据紧随Index Data区数据之后。

　　Index Data数据统计：

起始位置	字段
3……21	STRUCT
22……1141	category_id
1142……3056	product_id
3057……5135	brand_id
5136……7201	price
7202……7938	category_id_2

　　Row Data数据统计：

起始位置	字段	描述
7939……59887	category_id	字段对应词条int流
59888……59898	category_id	词条长度int流
59899……60989	category_id	字典词条数据
60990……3525432	product_id	实际数据int流
3525433……3527085	brand_id	标识IF NULL的byte流
3527086……5708142	brand_id	实际数据int流
5708143……7855016	price	double类型
7855017……7855212	category_id_2	字段对应词条int流
7855213……7855219	category_id_2	词条长度int流
7855220……7855289	category_id_2	字典词条数据

　　在ORC文件的int类型和string类型保存时，会有一个byte流用于记录字段的某个记录是否为null，根据统计只有brand_id 字段的count值不足100000条，也就是说除了brand_id 字段之外，其他字段中没有null值。所以在上面Row Data表中，只有brand_id有一个对应的IF NULL标识流。一个String类型，会将词条数据保存在字节流中，然后一个int流记录每个词条的长度，另外一个int流用于指定字段某个记录对应字典词条中的哪一个。

　　

　　这部分最后记录了每一个字段的存储方式，统计如下

字段	类型	存储方式
STRUCT		DIRECT
category_id	String	DICTIONARY_V2
product_id	Int	DIRECT_V2
brand_id	Int	DIRECT_V2
price	Double	DIRECT
category_id_2	String	DICTIONARY_V2

Hive-ORC文件存储格式（续）的更多相关文章

大数据：Hive - ORC 文件存储格式
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Hive - ORC 文件存储格式【转】
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
ORC 文件存储格式
1.orc列式存储概念 a)列式存储:orc并不是纯粹的列式存储,也是先基于行对数据表进行分组(行组),然后对行组进行列式存储. b)查询数据的时候不需要扫描全部数据(磁盘IO),只需查询指定列即可. ...
Hive(10)-文件存储格式
Hive支持的存储数据的格式主要有:TEXTFILE .SEQUENCEFILE.ORC.PARQUET 一. 列式存储和行式存储左边为逻辑表,右边第一个为行式存储,第二个为列式存储 1. 行式存储 ...
【图解】Hive文件存储格式
摘自:https://blog.csdn.net/xueyao0201/article/details/79103973 引申阅读原理篇: 大数据:Hive - ORC 文件存储格式大数据:Parq ...
Hive-ORC文件存储格式
ORC文件格式是从Hive-0.11版本开始的.关于ORC文件格式的官方文档,以及基于官方文档的翻译内容这里就不赘述了,有兴趣的可以仔细研究了解一下.本文接下来根据论文<Major Techni ...
hive常见的存储格式
Hive常见文件存储格式背景:列式存储和行式存储首先来看一下一张表的存储格式: 字段A 字段B 字段C A1 B1 C1 A2 B2 C2 A3 B3 C3 A4 B4 C4 A5 B5 C5 行 ...
Hive文件存储格式
hive文件存储格式 1.textfile textfile为默认格式存储方式:行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分 2.sequencef ...
Hive文件存储格式和hive数据压缩
一.存储格式行存储和列存储二.Hive文件存储格式三.创建语句和压缩一.存储格式行存储和列存储行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据. 列存储,以字段聚集存储,可以理解为 ...

随机推荐

“百度杯”CTF比赛九月场_123（文件备份，爆破，上传）
题目在i春秋ctf训练营翻看源码,发现提示: 打开user.php,页面一片空白,参考大佬的博客才知道可能会存在user.php.bak的备份文件,下载该文件可以得到用户名列表拿去burp爆破: ...
百度URL 部分参数
[Baidu URL的部分参数] 1.Baidu Form表单如下: 2.部分参数解析 wd 查询关键字,就是你要搜索的内容. bs 上一次搜索的词或者内容: rn 搜索结果页每页显示的数目,默认 ...
[Codeforces 863A]Quasi-palindrome
Description Let quasi-palindromic number be such number that adding some leading zeros (possible non ...
●洛谷P3687 [ZJOI2017]仙人掌
题链: https://www.luogu.org/problemnew/show/P3687题解: 计数DP,树形DP. (首先对于这个图来说,如果初始就不是仙人掌,那么就直接输出0) 然后由于本来 ...
●POJ 1259 The Picnic
题链: http://poj.org/problem?id=1259 题解: 计算几何,凸包,DP 题意:给出N($N\leq100$)个点,求出最大的凸包使得凸包里面不存在点(边上可以有).输出最大 ...
NGUI制作可滚动的文本框(摘，如有侵权，联系删除)
NGUI制作可滚动的文本框 1.首先创建一个UI Root 2.选择UI Root右键 Create 选择Scoll View创建. 3.Scroll view的大小是可以调节的,调节为你需要的适当大 ...
VC++6.0连接MySQL数据库（MySQL API）
一.MySQL的安装 Mysql的安装去官网下载就可以...最新的是5.7版本..二.VC6.0的设置(1)打开VC6.中选0 工具栏Tools菜单下的Options选项,在Directories ...
python中不能写n++
初学python发现写n++编译器直接报错,很纳闷,后来想起来python中的变量不像c那样事先定义好变量类型,在内存中开辟指定的空间,然后再开始赋值.在Python中,以字符串为例:事先在内存划分空 ...
C语言程序第二次作业
(一)改错题 1.输出带框文字:在屏幕上输出以下3行信息. ************* Welcome ************* 源程序 include int mian() { printf(&q ...
flask jQuery ajax 上传文件
1.html 代码 <div> <form id="uploadForm" enctype="multipart/form-data" > ...

Hive-ORC文件存储格式（续）