作者: 大圆那些事 | 文章可以转载，请以超链接形式标明文章原始出处和作者信息

网址: http://www.cnblogs.com/panfeng412/archive/2013/11/28/hbase-batch-put-performance-analysis-of-single-column-and-multiple-columns.html

针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下，分别批量Put写入时的性能对比情况，下面是结合HBase的源码来简单分析解释这一现象。

1. 测试结果

在客户端批量写入时，单列族单列模式和单列族多列模式的TPS和RPC次数相差很大，以客户端10个线程，开启WAL的两种模式下的测试数据为例，

单列族单列模式下，TPS能够达到12403.87，实际RPC次数为53次；
单列族多列模式下，TPS只有1730.68，实际RPC次数为478次。

二者TPS相差约7倍，RPC次数相差约9倍。详细的测试环境这里不再罗列，我们这里关心的只是在两种条件下的性能差别情况。

2. 粗略分析

下面我们先从HBase存储原理层面“粗略”分析下为什么出现这个现象：

HBase的KeyValue类中自带的字段占用大小约为50~60 bytes左右（参考HBase源码org/apache/hadoop/hbase/KeyValue.java），那么客户端Put一行数据时（53个字段，row key为64 bytes，value为751 bytes）：

1）开WAL，单column family单column qualifier，批量Put：(50~60) + 64 + 751 = 865~875 bytes；

2）开WAL，单column family多column qualifier，批量Put：((50~60) + 64) * 53 + 751 = 6793~7323 bytes。

因此，总体来看，后者实际传输的数据量是前者的：(6793~7323 bytes) / (865~875 bytes) = 7.85~8.36倍，与测试结果478 / 53 = 9.0倍基本相符（由于客户端write buffer大小一样，实际请求数的比例关系即代表了实际传输的数据量的比例关系）。

3. 源码分析

OK，口说无凭，下面我们通过对HBase的源码分析来进一步验证以上理论估算值：

HBase客户端执行put操作后，会调用put.heapSize()累加当前客户端buffer中的数据，满足以下条件则调用flushCommits()将客户端数据提交到服务端：

1）每次put方法调用时可能传入的是一个List<Put>，此时每隔DOPUT_WB_CHECK条（默认为10条），检查当前缓存数据是否超过writeBufferSize（测试中被设置为5MB），超过则强制执行刷新；

2）autoFlush被设置为true，此次put方法调用后执行一次刷新；

3）autoFlush被设置为false，但当前缓存数据已超过设定的writeBufferSize，则执行刷新。

    private void doPut(final List<Put> puts) throws IOException {

        int n = 0;

        for (Put put : puts) {

            validatePut(put);

            writeBuffer.add(put);

            currentWriteBufferSize += put.heapSize();

            // we need to periodically see if the writebuffer is full instead

            // of waiting until the end of the List

            n++;

            if (n % DOPUT_WB_CHECK == 0

                    && currentWriteBufferSize > writeBufferSize) {

                flushCommits();

            }

        }

        if (autoFlush || currentWriteBufferSize > writeBufferSize) {

            flushCommits();

        }

    }

由上述代码可见，通过put.heapSize()累加客户端的缓存数据，作为判断的依据；那么，我们可以按照测试数据的实际情况，编写代码生成Put对象后就能得到测试过程中的一行数据（由53个字段组成，共计731 bytes）实际占用的客户端缓存大小：

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.util.Bytes;

public class PutHeapSize {

    /**

     * @param args

     */

    public static void main(String[] args) {

        // single column Put size

        byte[] rowKey = new byte[64];

        byte[] value = new byte[751];

        Put singleColumnPut = new Put(rowKey);

        singleColumnPut.add(Bytes.toBytes("t"), Bytes.toBytes("col"), value);

        System.out.println("single column Put size: " + singleColumnPut.heapSize());

        // multiple columns Put size

        value = null;

        Put multipleColumnsPut = new Put(rowKey);

        for (int i = 0; i < 53; i++) {

            multipleColumnsPut.add(Bytes.toBytes("t"), Bytes.toBytes("col" + i), value);

        }

        System.out.println("multiple columns Put size: " + (multipleColumnsPut.heapSize() + 751));

    }

}

程序输出结果如下：

single column Put size: 1208

multiple columns Put size: 10575

由运行结果可得到，9719/1192 = 8.75，与上述理论分析值（7.85~8.36倍）、实际测试结果值（9.0倍）十分接近，基本可以验证测试结果的准确性。

如果你还对put.heapSize()方法感兴趣，可以继续阅读其源码实现，你会发现对于一个put对象来说，其中KeyValue对象的大小最主要决定了整个put对象的heapSize大小，为了进一步通过实例验证，下面的这段代码分别计算单column和多columns两种情况下一行数据的KeyValue对象的heapSize大小：

import org.apache.hadoop.hbase.KeyValue;

public class KeyValueHeapSize {

    /**

     * @param args

     */

    public static void main(String[] args) {

        // single column KeyValue size

        byte[] row = new byte[64]; // test row length

        byte[] family = new byte[1]; // test family length

        byte[] qualifier = new byte[4]; // test qualifier length

        long timestamp = 123456L; // ts

        byte[] value = new byte[751]; // test value length

        KeyValue singleColumnKv = new KeyValue(row, family, qualifier, timestamp, value);

        System.out.println("single column KeyValue size: " + singleColumnKv.heapSize());

        // multiple columns KeyValue size

        value = null;

        KeyValue multipleColumnsWithoutValueKv = new KeyValue(row, family, qualifier, timestamp, value);

        System.out.println("multiple columns KeyValue size: " + (multipleColumnsWithoutValueKv.heapSize() * 53 + 751));

    }

}

程序输出结果如下：

single column KeyValue size: 920

multiple columns KeyValue size: 10079

与前面PutHeapSize程序的输出结果对比发现，KeyValue确实占据了整个Put对象的大部分heapSize空间，同时发现从KeyValue对象级别对比两种情况下的传出数据量情况：10079/920 = 10.9倍，也与实际测试值比较接近。

4. 相关结论

经过以上分析可以得出以下结论：

在实际应用场景中，对于单column qualifier和多column qualifier两种情况，如果value长度越长，row key长度越短，字段数（column qualifier数）越少，前者和后者在实际传输数据量上会相差小些；反之则相差较大。
如果采用多column qualifier的方式存储，且客户端采取批量写入的方式，则可以根据实际情况，适当增大客户端的write buffer大小，以便能够提高客户端的写入吞吐量。

HBase在单Column和多Column情况下批量Put的性能对比分析的更多相关文章

C++单继承、多继承情况下的虚函数表分析
C++的三大特性之一的多态是基于虚函数实现的,而大部分编译器是采用虚函数表来实现虚函数,虚函数表(VTAB)存在于可执行文件的只读数据段中,指向VTAB的虚表指针(VPTR)是包含在类的每一个实例当中 ...
关于MySQL中查询大数据量的情况下分页limit的性能优化
https://blog.csdn.net/weixin_37848710/article/details/80772725
一步步学Mybatis-实现单表情况下的CRUD操作（3）
今天这一章要紧接上一讲中的东西,本章中创建基于单表操作的CRUD与GetList操作,此示例中以Visitor表为范例,为了创建一点测试数据我们先弄个Add方法吧继续在上次的IVisitorOper ...
使用java操作hbase（单节点）
1.在运行java代码之前,一定要先启动Hbase,很重要!! cd /home/cx/itcast/hbase-1.2.6/bin ./start-hbase.sh 2.新建一个java项 ...
单链表在不知头结点的情况下对第i个元素的删除
一.首先,看看单链表中第i个元素的删除: Status ListDelete_L (LinkList &L,int i,ElemType &e){ //在带头结点的单链表L中,删除第i ...
ng-file-upload（在单文件选择，并且通过点击“上传”按钮上传文件的情况下，如何在真正选择文件之前保留上一文件信息？）
文章前面研究ng-file-upload可能涉及指令: You can use ng-model or ngf-change instead of specifying function for ng ...
ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)
背景老生常谈,为sql当时着迷了,啥都用sql解决.看这个语句,麻烦的. ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row ...
ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN DESC)函数的使用
ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN DESC)函数的作用是指定COLUMN(列)进行分区,在分区内指定COLUMN(列)进行排序 ...
jQuery使用ajaxSubmit()提交表单（在不希望页面跳转的情况下）
原文:http://www.jb51.net/article/48728.htm ajaxSubmit(obj)方法是jQuery的一个插件jquery.form.js里面的方法,所以使用此方法需要先 ...

随机推荐

php文章内容分页并生成相应的htm静态页面代码
代码如下: <?php $url='test.php?1=1'; $contents="fjka;fjsa;#page#批量生成分成文件并且加上分页代码"; $ptext = ...
python之路-Day1
Python 是一门什么样的语言? python是一门动态解释性的强类型定义语言动态语言:动态类型语言是指在运行期间才去做数据类型检查的语言,也就是说,在用动态类型的语言编程时,永远也不用给任何变量 ...
python sort和sorted的区别以及使用方法
iteralbe指的是能够一次返回它的一个成员的对象.iterable主要包括3类: 第一类是所有的序列类型,比如list(列表).str(字符串).tuple(元组). 第二类是一些非序列类型,比如 ...
SSH基本框架搭建后的简化
对于SSh框架的简化,我们可以从下面几个方面来剖析: 1.实体类entity:在这里我们需要将数据库和实体类进行关联,在简化之前,我们需要在entity包里面加入一份.xml配置文件例如原码---- ...
64位Win7下运行ASP+Access网站的方法
64位Win7下运行ASP+Access网站的方法近日系统升级为WIN7 64位之后,突然发现原本运行正常的ASP+ACCESS网站无法正常连接数据库. 网上搜索多次,终于解决了问题,总结了几条经验 ...
nginx的特点
1.热部署我个人觉得这个很不错.在master管理进程与worker工作进程的分离设计,使的Nginx具有热部署的功能,那么在7×24小时不间断服务的前提下,升级Nginx的可执行文件 ...
Java核心知识点学习----多线程并发之线程间的通信,notify,wait
1.需求: 子线程循环10次,主线程循环100次,这样间隔循环50次. 2.实现: package com.amos.concurrent; /** * @ClassName: ThreadSynch ...
log4net记录日志到数据库自定义字段
假设数据库中有如下自定义字段: 1.根据自定义字段定义日志信息对象 public class MessageLog { /// <summary> ...
vs代码段快捷键设置
1 工具->代码段管理器
UWP深入学习二:各种激活方式
Launching, resuming, and multitasking How to launch an app for results Auto-launching with file and ...