大数据应用之HBase数据插入性能优化之多线程并行插入测试案例

一、引言：

　　上篇文章提起关于HBase插入性能优化设计到的五个参数，从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈，基于单线程的模式实现的数据插入毕竟有限。通过个人实测，在我的虚拟机环境下，单线程插入数据的值约为4w/s。集群指标是：CPU双核1.83，虚拟机512M内存，集群部署单点模式。本文给出了基于多线程并发模式的，测试代码案例和实测结果，希望能给大家一些启示：

二、源程序：

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import java.io.BufferedReader;

 import java.io.File;

 import java.io.FileNotFoundException;

 import java.io.FileReader;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.Random;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.client.HBaseAdmin;

 import org.apache.hadoop.hbase.client.HTable;

 import org.apache.hadoop.hbase.client.HTableInterface;

 import org.apache.hadoop.hbase.client.HTablePool;

 import org.apache.hadoop.hbase.client.Put;

 public class HBaseImportEx {

     static Configuration hbaseConfig = null;

     public static HTablePool pool = null;

     public static String tableName = "T_TEST_1";

     static{

          //conf = HBaseConfiguration.create();

          Configuration HBASE_CONFIG = new Configuration();

          HBASE_CONFIG.set("hbase.master", "192.168.230.133:60000");

          HBASE_CONFIG.set("hbase.zookeeper.quorum", "192.168.230.133");

          HBASE_CONFIG.set("hbase.zookeeper.property.clientPort", "2181");

          hbaseConfig = HBaseConfiguration.create(HBASE_CONFIG);

          pool = new HTablePool(hbaseConfig, 1000);

     }

     /*

      * Insert Test single thread

      * */

     public static void SingleThreadInsert()throws IOException

     {

         System.out.println("---------开始SingleThreadInsert测试----------");

         long start = System.currentTimeMillis();

         //HTableInterface table = null;

         HTable table = null;

         table = (HTable)pool.getTable(tableName);

         table.setAutoFlush(false);

         table.setWriteBufferSize(24*1024*1024);

         //构造测试数据

         List<Put> list = new ArrayList<Put>();

         int count = 10000;

         byte[] buffer = new byte[350];

         Random rand = new Random();

         for(int i=0;i<count;i++)

         {

             Put put = new Put(String.format("row %d",i).getBytes());

             rand.nextBytes(buffer);

             put.add("f1".getBytes(), null, buffer);

             //wal=false

             put.setWriteToWAL(false);

             list.add(put);

             if(i%10000 == 0)

             {

                 table.put(list);

                 list.clear();

                 table.flushCommits();

             }

         }

         long stop = System.currentTimeMillis();

         //System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         System.out.println("插入数据："+count+"共耗时："+ (stop - start)*1.0/1000+"s");

         System.out.println("---------结束SingleThreadInsert测试----------");

     }

     /*

      * 多线程环境下线程插入函数

      *

      * */

     public static void InsertProcess()throws IOException

     {

         long start = System.currentTimeMillis();

         //HTableInterface table = null;

         HTable table = null;

         table = (HTable)pool.getTable(tableName);

         table.setAutoFlush(false);

         table.setWriteBufferSize(24*1024*1024);

         //构造测试数据

         List<Put> list = new ArrayList<Put>();

         int count = 10000;

         byte[] buffer = new byte[256];

         Random rand = new Random();

         for(int i=0;i<count;i++)

         {

             Put put = new Put(String.format("row %d",i).getBytes());

             rand.nextBytes(buffer);

             put.add("f1".getBytes(), null, buffer);

             //wal=false

             put.setWriteToWAL(false);

             list.add(put);

             if(i%10000 == 0)

             {

                 table.put(list);

                 list.clear();

                 table.flushCommits();

             }

         }

         long stop = System.currentTimeMillis();

         //System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         System.out.println("线程:"+Thread.currentThread().getId()+"插入数据："+count+"共耗时："+ (stop - start)*1.0/1000+"s");

     }

     /*

      * Mutil thread insert test

      * */

     public static void MultThreadInsert() throws InterruptedException

     {

         System.out.println("---------开始MultThreadInsert测试----------");

         long start = System.currentTimeMillis();

         int threadNumber = 10;

         Thread[] threads=new Thread[threadNumber];

         for(int i=0;i<threads.length;i++)

         {

             threads[i]= new ImportThread();

             threads[i].start();

         }

         for(int j=0;j< threads.length;j++)

         {

              (threads[j]).join();

         }

         long stop = System.currentTimeMillis();

         System.out.println("MultThreadInsert："+threadNumber*10000+"共耗时："+ (stop - start)*1.0/1000+"s");

         System.out.println("---------结束MultThreadInsert测试----------");

     }    

     /**

      * @param args

      */

     public static void main(String[] args)  throws Exception{

         // TODO Auto-generated method stub

         //SingleThreadInsert();

         MultThreadInsert();

     }

     public static class ImportThread extends Thread{

         public void HandleThread()

         {

             //this.TableName = "T_TEST_1";

         }

         //

         public void run(){

             try{

                 InsertProcess();

             }

             catch(IOException e){

                 e.printStackTrace();

             }finally{

                 System.gc();

                 }

             }

         }

 }

三、说明

1.线程数设置需要根据本集群硬件参数，实际测试得出。否则线程过多的情况下，总耗时反而是下降的。

2.单笔提交数对性能的影响非常明显，需要在自己的环境下，找到最理想的数值，这个需要与单条记录的字节数相关。

四、测试结果

---------开始MultThreadInsert测试----------

线程:8插入数据：10000共耗时：1.328s
线程:16插入数据：10000共耗时：1.562s
线程:11插入数据：10000共耗时：1.562s
线程:10插入数据：10000共耗时：1.812s
线程:13插入数据：10000共耗时：2.0s
线程:17插入数据：10000共耗时：2.14s
线程:14插入数据：10000共耗时：2.265s
线程:9插入数据：10000共耗时：2.468s
线程:15插入数据：10000共耗时：2.562s
线程:12插入数据：10000共耗时：2.671s
MultThreadInsert：100000共耗时：2.703s
---------结束MultThreadInsert测试----------

备注：该技术专题讨论正在群Hadoop高级交流群：293503507同步直播中，敬请关注。

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例的更多相关文章

大数据应用之HBase数据插入性能优化实测教程
引言: 大家在使用HBase的过程中,总是面临性能优化的问题,本文从HBase客户端参数设置的角度,研究HBase客户端数据批量插入性能优化的问题.事实胜于雄辩,数据比理论更有说服力,基于此,作者设计 ...
TODOList 多线程交互、RCP、事物控制、数据倾斜、HBase数据同步性
TODOList 多线程交互.RCP.事物控制.数据倾斜.HBase数据同步性 TODO List thread.join()如何互相之间通知? 线程池何时最后运行完成? MemCache性能要优于R ...
【转载】HBase 数据库检索性能优化策略
转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库本文首先介绍了 HBase 数据库基本 ...
HBase 数据库检索性能优化策略--转
https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的 ...
HBase 数据库检索性能优化策略
HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主要用于非结构化数据存储用途的开源数据库.其设计思路来源于 Google 的非开源数据库"BigTable" ...
MySQL插入性能优化
目录 MySQL插入性能优化代码优化 values 多个一个事务插入字段尽量少,尽量用默认值关闭 unique_checks bulk_insert_buffer_size 配置优化 inno ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...

随机推荐

jsonp 跨域2
<!doctype html> <html> <head> <meta charset="utf-8"> <meta name ...
ZOJ3180 Number Game
ZOJ3180 Number Game 要点: 判断后三个数字能否通过上述的变换过程推出前三个数字 ,我们可以逆向思维考虑也就是逆着推回去如果符合后三个数字或其变换一次的数字(即符合其中一种组 ...
PHP 之 Ci框架下隐藏index.php
1. 修改 apache 配置文件开启重写模块 conf/httpd.conf 去掉前面的# LoadModule rewrite_module modules/mod_rewrite.so 对于U ...
C语言基础:枚举.宏分类： iOS学习 c语言基础 2015-06-10 22:01 20人阅读评论(0) 收藏
枚举:一组有符号的整型常量,一一列举所有的状态枚举常和switch连用 enum week{ monday=1, tuesday, wednesday, thursday, friday, sat ...
cocoapods 安装过程及常见问题
1.可以参考这个网页的教程:http://code4app.com/article/cocoapods-install-usage 2.按照以下步骤进行安装: 1.配置rugy静态环境 gem sou ...
JavaScript 之arguments、caller 和 callee 介绍
1.前言 arguments, caller , callee 是什么? 在javascript 中有什么样的作用?本篇会对于此做一些基本介绍. 2. arguments arguments: ...
（3）re模块（正则表达式模块）
什么是正则表达式正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中,并通过 r ...
【矩阵快速幂】【杭电OJ1757】
http://acm.hdu.edu.cn/showproblem.php?pid=1757 A Simple Math Problem Time Limit: 3000/1000 MS (Java/ ...
【洛谷P1462】【二分+堆优化dij】
题目描述在艾泽拉斯,有n个城市.编号为1,2,3,...,n. 城市之间有m条双向的公路,连接着两个城市,从某个城市到另一个城市,会遭到联盟的攻击,进而损失一定的血量. 每次经过一个城市,都会被收取 ...
Executors Future Callable 使用场景实例
https://www.jb51.net/article/132606.htm: 我们都知道实现多线程有2种方式,一种是继承Thread,一种是实现Runnable,但这2种方式都有一个缺陷,在任务完 ...

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例的更多相关文章

随机推荐

热门专题