大数据应用之HBase数据插入性能优化实测教程

引言：

　　大家在使用HBase的过程中，总是面临性能优化的问题，本文从HBase客户端参数设置的角度，研究HBase客户端数据批量插入性能优化的问题。事实胜于雄辩，数据比理论更有说服力，基于此，作者设计了这么一个HBase数据插入性能优化实测实验，希望大家用自己的服务器跑出的结果，给自己一个值得信服的结论。

一、客户单优化参数

　　1.Put List Size
　　HBase的Put支持单条插入，也支持批量插入。

　　2. AutoFlush　　
　　AutoFlush指的是在每次调用HBase的Put操作，是否提交到HBase Server。默认是true,每次会提交。如果此时是单条插入，就会有更多的IO,从而降低性能

　　3.Write Buffer Size
　　Write Buffer Size在AutoFlush为false的时候起作用，默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server

　　4.WAL
　　WAL是Write Ahead Log的缩写，指的是HBase在插入操作前是否写Log。默认是打开，关掉会提高性能，但是如果系统出现故障(负责插入的Region Server　　挂掉)，数据可能会丢失。

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-qformat:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri","sans-serif";
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:宋体;
mso-fareast-theme-font:minor-fareast;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;}

参数	默认值	说明
JVM Heap Size		平台不同值不同自行设置
AutoFlush	True	默认逐条提交
Put List Size	1	支持逐条和批量
Write Buffer Size	2M	与autoflush配合使用
Write Ahead Log	True	默认开启，需要手动关闭
…
…

二、源码程序

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.Random;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.HColumnDescriptor;

 import org.apache.hadoop.hbase.HTableDescriptor;

 import org.apache.hadoop.hbase.KeyValue;

 import org.apache.hadoop.hbase.MasterNotRunningException;

 import org.apache.hadoop.hbase.ZooKeeperConnectionException;

 import org.apache.hadoop.hbase.client.Delete;

 import org.apache.hadoop.hbase.client.Get;

 import org.apache.hadoop.hbase.client.HBaseAdmin;

 import org.apache.hadoop.hbase.client.HTable;

 import org.apache.hadoop.hbase.client.Result;

 import org.apache.hadoop.hbase.client.ResultScanner;

 import org.apache.hadoop.hbase.client.Scan;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.util.Bytes;

 /*

  * -------优化案例说明------------

  * 1.优化参数1：Autoflush                默认关闭，需要手动开启

  * 2.优化参数2：put list size            支持单条与批量

  * 3.优化参数3：JVM heap size             默认值是平台而不同，需要手动设置

  * 4.优化参数4：Write Buffer Size        默认值2M

  * 5.优化参数5：Write Ahead Log             默认开启，需要手动关闭

  * */

 public class TestInsert {

     static Configuration hbaseConfig = null;

     public static void main(String[] args) throws Exception {

         Configuration HBASE_CONFIG = new Configuration();

         HBASE_CONFIG.set("hbase.master", "192.168.230.133:60000");

         HBASE_CONFIG.set("hbase.zookeeper.quorum", "192.168.230.133");

         HBASE_CONFIG.set("hbase.zookeeper.property.clientPort", "2181");

         hbaseConfig = HBaseConfiguration.create(HBASE_CONFIG);

         //关闭wal,autoflush,writebuffer = 24M

         insert(false,false,1024*1024*24);

         //开启AutoFlush，writebuffer = 0

         insert(false,true,0);

         //默认值，全部开启

         insert(true,true,0);

     }

     private static void insert(boolean wal,boolean autoFlush,long writeBuffer)

             throws IOException {

         String tableName="etltest";

         HBaseAdmin hAdmin = new HBaseAdmin(hbaseConfig);

         if (hAdmin.tableExists(tableName)) {

             hAdmin.disableTable(tableName);

             hAdmin.deleteTable(tableName);

         }

         HTableDescriptor t = new HTableDescriptor(tableName);

         t.addFamily(new HColumnDescriptor("f1"));

         t.addFamily(new HColumnDescriptor("f2"));

         t.addFamily(new HColumnDescriptor("f3"));

         t.addFamily(new HColumnDescriptor("f4"));

         hAdmin.createTable(t);

         System.out.println("table created");

         HTable table = new HTable(hbaseConfig, tableName);

         table.setAutoFlush(autoFlush);

         if(writeBuffer!=0){

             table.setWriteBufferSize(writeBuffer);

         }

         List<Put> lp = new ArrayList<Put>();

         long all = System.currentTimeMillis();

         System.out.println("start time = "+all);

         int count = 20000;

         byte[] buffer = new byte[128];

         Random r = new Random();

         for (int i = 1; i <= count; ++i) {

             Put p = new Put(String.format("row d",i).getBytes());

             r.nextBytes(buffer);

             p.add("f1".getBytes(), null, buffer);

             p.add("f2".getBytes(), null, buffer);

             p.add("f3".getBytes(), null, buffer);

             p.add("f4".getBytes(), null, buffer);

             p.setWriteToWAL(wal);

             lp.add(p);

             if(i%1000 == 0){

                 table.put(lp);

                 lp.clear();

             }

         }

         System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         long end = System.currentTimeMillis();

         System.out.println("total need time = "+ (end - all)*1.0/1000+"s");

         System.out.println("insert complete"+",costs:"+(System.currentTimeMillis()-all)*1.0/1000+"ms");

     }

 }

三、集群配置

3.1 服务器硬件配置清单

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

序号	节点名称	CUP	内存	硬盘	带宽
1	HMaster
2	HregionServer1
3	HregionServer2
4	…
5
6
7

3.2 客户端硬件配置清单

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

设备	节点名称
Cpu
内存
硬盘
带宽

四、测试报告

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

数据量	JVM	AutoFlush	Put List Size	WriteBufferSize	WAL	耗时
1000	512m	false	1000	1024102424	false
2000
5000
10000
20000
50000
100000
200000
500000
100000

备注：该技术专题讨论正在群Hadoop高级交流群：293503507同步直播中，敬请关注。

大数据应用之HBase数据插入性能优化实测教程的更多相关文章

TODOList 多线程交互、RCP、事物控制、数据倾斜、HBase数据同步性
TODOList 多线程交互.RCP.事物控制.数据倾斜.HBase数据同步性 TODO List thread.join()如何互相之间通知? 线程池何时最后运行完成? MemCache性能要优于R ...
【转载】HBase 数据库检索性能优化策略
转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库本文首先介绍了 HBase 数据库基本 ...
HBase 数据库检索性能优化策略--转
https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的 ...
HBase 数据库检索性能优化策略
HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主要用于非结构化数据存储用途的开源数据库.其设计思路来源于 Google 的非开源数据库"BigTable" ...
MySQL插入性能优化
目录 MySQL插入性能优化代码优化 values 多个一个事务插入字段尽量少,尽量用默认值关闭 unique_checks bulk_insert_buffer_size 配置优化 inno ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
大数据应用之HBase数据插入性能优化之多线程并行插入测试案例
一.引言: 上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码.根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限.通过个人实测,在我的 ...

随机推荐

sgu 121. Bridges painting 列举情况难度:1
121. Bridges painting time limit per test: 0.25 sec. memory limit per test: 4096 KB New Berland cons ...
bzoj1084&&洛谷2331[SCOI2005]最大子矩阵
题解: 分类讨论当m=1的时候,很简单的dp,这里就不再复述了当m=2的时候,设dp[i][j][k]表示有k个子矩阵,第一列有i个,第二列有j个然后枚举一下当前子矩阵,状态转移代码: #in ...
Maven入门-3.pom文件和settings文件
1.pom.xml文件介绍2.settings.xml文件介绍 1.pom.xml文件介绍 Maven项目的核心是pom.xml,pom(Project Object Model项目对象模型) pom ...
Windows8连接网络后自动弹出Bing解决方法
Windows8 网络连接速度很快( ADSL ),但是连接之后总是会打开 Bing,这是很烦人的一件事,因为你连接网络可能并不想打开浏览器,甚至,你讨厌 Bing. 我也一直被这个问题困扰了很久,用 ...
slf4j简单使用
一 slf4j+log4j 1.添加依赖  <d ...
（转）git合并多个commit
原文地址:http://platinhom.github.io/2016/01/02/git-combine_commit/ 有时commit多了看着会不爽.所以想合并掉一些commit. 这里是最简 ...
<youcengcibianli>
#include<stdio.h> #include<stdlib.h> #include<string.h> #define num 100 #define OK ...
windows开机自动登录
控制台输入control userpasswords2 ,去掉下图中的√,输入登陆所用用户名密码即可.
Java实现交换两个String
在Java中我们所使用的实例变量其实都是一个引用,所以如果要求实现一个swap(String A, String B)这种函数时无法实现的,因为在类方法的定义中是先对行参进行地址传递,然后对形参修改, ...
ListBox 控件单击事件
XAML: <ListBox x:Name="ItemBox" Grid.Column="0" Tap="ItemBox_Tap"&g ...

大数据应用之HBase数据插入性能优化实测教程

大数据应用之HBase数据插入性能优化实测教程的更多相关文章

随机推荐

热门专题