HBase MemStore与HStoreFile 的大小分析

Sumary:

　　MemStore结构
　　KeyValue构成细节
　　HFile分析
　　Maven

项目例子使用了Maven来管理Dependency,要运行例子，需要有maven环境，后面提到的HFile,StoreFile,HStoreFile指的是同一样东西，也就是HBase中Region每个CF对应的数据文件。
HBase一直有一个问题，困扰着我一段时间了.时而思考一下，终不得解。
问题发生于5月某天，在做大量Put测试去观察MemStore的flush, HStoreFile的Split和Compact操作时，奇怪的事情发生了，默认MemStore的size为128M,headSize达到128M,进行flush之后，MemStore恢复为0M,生成snapshot写hfile,最终生在hdfs的大小却是30M左右。
百思不得奇怪，为什么会减少了这么多,压缩？NO!
最近开始研究HFile的相关内容时，又想起了MemStore size和HFile size不一致问题，再次做试验。最终找到了答案.

场景设置：
　　环境: 64位 CentOS VM 伪分布Hadoop ，standalone方式的HBase 连接本机hdfs. 4G内存 4核
　　Hadoop 2.3 HBase 0.98.1-hadoop2 HFileReader(Writer) V2
　　单个表,1个CF, 10W rows,即 70WKV,每个KV heapSize占100+byte左右，目测KV headSize会占有 70M

具体见测试代码。

1. 执行App.java 结束后，查看后台 master:60010 ,memStore的内存达到 112.9M

图1
2.通常，数据不会被flush至HFile中，重启HBase,强制flush memStore，再次查看后台web gui.
stop-hbase.sh
start-hbase.sh

图2
查看HFile只有26M。只有源数据的25%不到，很好，是我想要的结果。
也可以在stop后，直接使用hadoop 命令查看dfs中的文件大小 :hadoop fs -ls -R /hbase/data/default/t_sample/

图3
至此，第一个小实验做完了，结果很明显，MemStore 112.9M flush到StoreFile中只有26M，不到1/4的容量，why?

首先我们看一个KeyValue的构成

图4
从图中可以得知KeyValue的细节,我们继续一些有趣的小实验。
1.构建一个KeyValue

 public static void main(String[] args) throws Exception {

        final byte[] row = Bytes.toBytes("u1");

        final byte[] family = Bytes.toBytes("info");

        final byte[] qualifier = Bytes.toBytes("sex");

        final byte[] value = Bytes.toBytes("M");

        KeyValue kv = new KeyValue(row, family, qualifier, value);

        kv.setMvccVersion(System.currentTimeMillis());

        System.out.println(kv.heapSize());

}

输出: 96

顺手抓了一幅图如下：

图5
结合KeyValue结构图4及实际一个KeyValue的字节码图5我们分析一下：

第0-3个字节为 int类型 Key的长度，在这里是 21
第4-7个字节为 int类型 Value的长度,在这里只有1
第8-28个字节为Key的内容
8-9 short类型，指定了 rowKey的长度值为 2.
10-11 对应的rowKey,转为原String为u1
12 byte型的ColumnFamility Length,值为4
13-16 对应CF值，转为原String为info
28为KeyType,由于我们创建KeyValue时没有显式指定，默认为Put(4)
20-27为8字节的Long型，对应timestamp.
所以剩下的为 17-19 三字节为Qualifier,转为原String为sex
第29，即最后一字节，是Value内容 : "M"

好，假设我们KeyValue的真实内容，就是这堆长度为30的字节码，我们简单算一下, 30 * 70 * 10000 / 1024 / 1024 = 20M，这个数值是不是和我们的HFile的大小有点接近呢？我们试想一下，文件中还有一些Index、MetaBlock、Meta、FileInfo等信息，七七八八加起来，再加上本身其它column的 value就不止1字节，所以已经非常接近我们这26M的目标大小了。
好的，我们假设这些字节码，就是直接存入到HFile中的,那么MemStore呢，存的又是哪样？我们再简单地算一下, 96 * 70*10000 / 1024 / 1024 = 64M,离 112.9M差了近一倍。

走另一条路，我们想另一个问题，再来看看，为什么KeyValue本身只有30byte,但是打印出来是在MemStore的heapSize是96?看看heapSize()方法。

public long heapSize() {

int sum = 0;

sum += ClassSize.OBJECT;// the KeyValue object itself 16字节

sum += ClassSize.REFERENCE;// pointer to "bytes" 8字节

sum += ClassSize.align(ClassSize.ARRAY);// "bytes" 24字节

sum += ClassSize.align(length);// number of bytes of data in the "bytes" array 以刚才的为例，30,会转化为32字节.

sum += 2 * Bytes.SIZEOF_INT;// offset, length 2字节

sum += Bytes.SIZEOF_LONG;// memstoreTS 8字节

return ClassSize.align(sum);

}

OK，由于在内存中的原因，一个KeyValue对象除了本身实际内容外，还有 64byte是对象的内部实例等占用了部分空间，从而会这么大。
另外，我们查看MemStore的结构：

volatile KeyValueSkipListSet kvset;

KeyValue是放在SkipListSet中的，内部其实就是一个Map,那么我们每个KeyValue存在Map中其实是一个又一个是Entry.其中每一个Entry又占了64byte.所以，一个KeyValue占MemStore的空间大约是160bytes.
我们取168个字节为一个KeyValue大概算一算 168 * 70 * 10000 / 1024 / 1024 = 112.1 ,之所以取168其实也就是一行中7个KeyValue肉眼大约算出来的平均值，112.1M已经非常接近112.9M了.
假设我们用38* 70 * 10000 / 1024 / 1024来算，25.3M，更为精确点，所以结合二个size，我们假定，这就是它们的真实的内存大小和文件大小。

为了论证这一点，我们还是做一个实例。具体源码见附件中。

我们直接通过HFileReader去读取HDFS中的HFile，然后Scan里面所有的KeyValue进行统计。结果输出为：
MemStoreSize:118391920,HFileSize:27723608,KeyValue Count:700000 转化单位
MemStoreSize:112.9M,HFileSize:26.4M,KeyValue Count:700000

好了，真相大白，完全证明了上面的推断是正确的。

项目源码下载： http://files.cnblogs.com/bdifn/MemStore_HStore_sample.zip

HBase MemStore与HStoreFile 的大小分析的更多相关文章

深入理解HBase Memstore
2013/08/09 转发自http://www.cnblogs.com/shitouer/archive/2013/02/05/configuring-hbase-memstore-what-you ...
Xamarin生成的APK大小分析
原文:Xamarin生成的APK大小分析刚接触Xamarin都会被Xamarin的售价吓一跳,另外就是它生成的APK大小,官方也有相关的说明,这里加上自己的理解同意讲解下: 以下是针对Android ...
Hbase WAL线程模型源码分析
版权声明:本文由熊训德原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/257 来源:腾云阁 https://www.qclo ...
HBase Thrift2 CPU过高问题分析
目录目录 1 1. 现象描述 1 2. 问题定位 2 3. 解决方案 5 4. 相关代码 5 1. 现象描述外界连接9090端口均超时,但telnet端口总是成功.使用top命令观察,发现单个线程 ...
C++基础之---union联合体大小分析
#include <iostream> using namespace std; union un { int a[7]; double b; char c[10]; int d[3]; ...
YUV和RGB格式单像素所占内存大小分析
图片的大小定义为:w * h,宽高分别为w和h 一.YUV格式 1.1.YUV420格式存储方式:先Y,后V,中间是U.其中的Y是w * h,U和V是w/2 * (h/2)举例:如果w = 4,h ...
bzoj2906 颜色分块+块大小分析
题目传送门 https://lydsy.com/JudgeOnline/problem.php?id=2906 题解如果可以离线的话,那么这个题目就是一个莫队的裸题. 看上去这个数据范围也还会一个根 ...
C#数组大小分析（附测试过程中想起的debug和release区别）
C#数组的理论最大长度到底是多少呢?曾经一度问过度娘,谷歌,貌似都没有得出一个比较准确的答案,无外乎是什么Int32的最大值啊什么的,今天终于决定写个软件来自己测试一下,在几台不同的电脑里面实际测试看 ...
HBase与传统关系数据库的对比分析

随机推荐

C#中如何动态加载DockPanel
在WinForm项目中要求实现动态加载DockPanel. 简单研究了下,演示代码如下: 很简单几行代码,实现了基本意图.看起来问题很快解决. 但是实际应用中发现几个问题: 1.当第一次运行时,doc ...
与Xamarin.Forms跨平台的用户界面
Xamarin.Forms 与Xamarin.Forms跨平台的用户界面 Xamarin的. 形式是一个跨平台的UI工具包,它允许开发人员轻松地创建本地用户界面布局,可以共享在Android,iO ...
mac本地搭建wordpress
1 下载安装最新的xampp 2 安装完成后,使用下面的命令开始运行 XAMPP.在终端下以系统管理员 root 的身份登录管理员root身份登录 sudo su 使用命令启动XAMPP /Appl ...
CAD启动找不到AC1ST16.DLL
今天在安装Win7 x64上CAD2006启动报错:找不到ac1st16.dll文件. 一查,是系统变量的问题.在系统变量Path中cad的路径为: C:\Program Files (x86)\Co ...
C#字符串来袭——因为爱，所以爱
一直以来都喜欢谢霆锋,喜欢他身上的那股劲,也一直喜欢唱他的歌,比如这首最广为人知的<因为爱,所以爱>:因为爱所以爱,温柔经不起安排,愉快那么快,不要等到互相伤害...是的,没到互相伤害,他 ...
算法笔记_073:哈密顿回路问题（Java）
目录 1 问题描述 2 解决方案 1 问题描述什么是哈密顿回路? 引用自百度百科: 哈密顿图(哈密尔顿图)(英语:Hamiltonian path,或Traceable path)是一个无向图, ...
<译>Flink编程指南
Flink 的流数据 API 编程指南 Flink 的流数据处理程序是常规的程序 ,通过再流数据上,实现了各种转换 (比如过滤, 更新中间状态, 定义窗口, 聚合).流数据可以来之多种数据源 (比如 ...
360极速浏览器无法正确getHours
开发了一个显示时间的功能. 功能是这样的,首先从数据库中读取时间,然后显示到前端页面上. 数据库中:2017-08-10 14:25:35.867 前端显示:2017-08-10T14:25:35.8 ...
Markdown进阶指南
数学公式编辑 Mac OS下建议使用Daum Equation Editor,按照MathType那样写公式,自动生成TeX代码行内公式:用$...$包住Tex代码行间公式:用$$..$$包住Te ...
点滴积累【other】---存储过程修改表的所有字段（sql）
USE [QG_Mis24] GO /****** Object: StoredProcedure [dbo].[p_set] Script Date: 07/11/2013 17:05:38 *** ...

HBase MemStore与HStoreFile 的大小分析

HBase MemStore与HStoreFile 的大小分析的更多相关文章

随机推荐

热门专题