HBase应用开发回顾与总结系列之三:RowKey行键生成器工具
所谓RowKey行键生成器,是指通过软件工具制定行键生成策略,并可将策略信息保存成本地策略文件,待需要时再将本地策略文件序列化成行键生成策略对象,传入数据行信息后可自动生成RowKey行键。
那么,为什么要设计这个行键生成器呢?最初的时候,我们有一个需求,要把Oracle中的若干大表数据导入到HBase中,那么这里就出现了一个问题:那么多表,每个表的RowKey生成规则都是不一样的,难道我们要为每个表都设计一个行键生成方法吗?!
当然不可能,我们必须做一些事半功倍或者一劳永逸的事情来解决这个问题,所以我们就想到可以设计一个行键生成器工具,这样开发人员就可以手动制订生成一些策略文件,并可把这些策略文件打成jar包文件进行分发。下图为其效果图。

下面笔者将详细介绍下设计思路。
第一,HBase中的行键信息,往往是由多个数据信息组合而成,而且大部分情况下都是基于已有的关系数据库表的列字段信息。举个例子,现在我们要把PUBLISH_DATA_INFO(发布数据信息表)中的数据信息导入到HBase表中,行键由“PUBLISH_TIME”和“DATA_TYPE”组成,那么,现在我们就首先确定了行键信息的数据来源。
第二,我们再重申下HBase行键的几个生成原则:定长、唯一性等。那么,我们就必须对组成行键的数据进行格式化处理,常规的格式化处理方式有以下几种:去除空格、替换特殊字符、前补齐、后补齐、字符颠倒等等,所用的java技术也不外乎那几个方法:trim、replace、substring等等。当然,对于某些特殊情况,你也可以采用正则表达式进行处理。笔者将这些格式化处理统称为配置策略。
第三,HBase行键生成策略信息制定后,需要将其持久化保存,以便其他人员和系统使用。保存方式有多种,譬如,将其保存到Oracle或者Mysql数据库表中,可以确保唯一性,而且可以通过网络供多个用户和系统共用,是最佳的保存方式。也可以将其序列化成本地文件(xml或者json文件等),笔者现在设计的这个版本,就是将行键生成策略信息序列化成json文件保存到本地。如下表所示:
[{"DATA_TYPE":"DATA_TYPE","PUBLISH_TIME":"PUBLISH_TIME"},{"columnName":"PUBLISH_TIME","length":14,"numberStep":1,"prefixChar":"","prefixNumber":0,"replaceChar":"","replaceSourceChar":"- :","splitChar":".","startNumber":1,"suffixChar":"0","suffixNumber":0,"value":"2015-12-26 12:24:00"},{"columnName":"DATA_TYPE","length":4,"numberStep":1,"prefixChar":"","prefixNumber":0,"replaceChar":"","replaceSourceChar":"","splitChar":"","startNumber":1,"suffixChar":"0","suffixNumber":0,"value":"D1"}]
第四,该怎么使用这些行键生成策略呢?在系统启动的时候,通过接口方法加载这些行键生成策略信息(文件),将其加载到内存中,然后组织与行键相关的字段信息集合,并将其传递到指定的接口方法中,最终生成行键。示例代码如下:
//加载行键策略本地文件
String policyFilePath = "D:\\PMS_EQUIP_INFO.policy";
RowKeyPolicy rowKeyPolicy = RowKeyPolicy.openRowKeyGeneratorPolicyFile(policyFilePath);
//构建测试用的数据行
Map<String,Object> row = new HashMap<String,Object>();
row.put("PUBLISH_TIME", "2015-08-12 16:35:00");
row.put("DATA_TYPE", "D01");
String rowKey = rowKeyPolicy.getRowKey(row, false);
LogInfoUtil.printLog("RowKey=" + rowKey); row.put("PUBLISH_TIME", "2015-09-12 16:35:00");
row.put("DATA_TYPE", "D02");
rowKey = rowKeyPolicy.getRowKey(row, false);
LogInfoUtil.printLog("RowKey=" + rowKey); //打印日志信息如下
**********RowKey=20150812163500.D010
**********RowKey=20150912163500.D020
第五,下面是笔者开发时的工程文件,代码还没有来得及优化,有兴趣的朋友,可以下载下来看看。附工程结构图:

附件:
hnepri-hadoop-hbase-rowkey工程代码
作者:商兵兵
单位:河南省电力科学研究院智能电网所
QQ:52190634
HBase应用开发回顾与总结系列之三:RowKey行键生成器工具的更多相关文章
- HBase应用开发回顾与总结系列之一:概述HBase设计规范
概述 笔者本人接触研究HBase也有半年之久了,虽说不上深入和系统,但至少算是比较沉迷.作为部门里大数据技术的探路者,笔者还要承担起技术传播的职责,所以在摸索研究的过程中总是不断地进行总结和测试, ...
- HBase应用开发回顾与总结系列之二:RowKey行键设计规范
2. RowKey行键设计规范 2.1. RowKey四大特性 2.1.1 字符串类型 虽然行键在HBase中是以byte[]字节数组的形式存储的,但是建议在系统开发过程中将其数据类型设置为Strin ...
- HBase应用开发回顾与总结系列之四:HBase配置管理类接口设计
利用Eclipse进行HBase应用开发时,至少需要确定三个配置信息,如下表所示: #hbase config #HMaster服务部署主机及端口号 hbase.master=hdp-wuyong ...
- Hadoop HBase概念学习系列之优秀行键设计(十六)
我们通过行键访问HBase.尽管使用扫描过滤器可以一次性指明大量的键,但是HBase仅仅能够根据行键识别出一行. 优秀的行键设计可以保证良好的HBase性能. 1.行键存在于HBase中的每一个单元格 ...
- 架构师必备:HBase行键设计与应用
首先要回答一个问题,为何要使用HBase? 随着业务不断发展.数据量不断增大,MySQL数据库存在这些问题: MySQL支持的数据量为TB级,不能一直保留历史数据.而HBase支持的数据量为PB级,适 ...
- Red Gate系列之三 SQL Server 开发利器 SQL Prompt 5.3.4.1 Edition T-SQL智能感知分析器 完全破解+使用教程
原文:Red Gate系列之三 SQL Server 开发利器 SQL Prompt 5.3.4.1 Edition T-SQL智能感知分析器 完全破解+使用教程 Red Gate系列之三 SQL S ...
- 大数据学习系列之三 ----- HBase Java Api 图文详解
版权声明: 作者:虚无境 博客园出处:http://www.cnblogs.com/xuwujing CSDN出处:http://blog.csdn.net/qazwsxpcm 个人博客出处:http ...
- DataSnap 2009 系列之三 (生命周期篇)
DataSnap 2009 系列之三 (生命周期篇) DataSnap 2009的服务器对象的生命周期依赖于DSServerClass组件的设置 当DSServer启动时从DSServerClass组 ...
- 完毕port(CompletionPort)具体解释 - 手把手教你玩转网络编程系列之三
手把手叫你玩转网络编程系列之三 完毕port(Completion Port)具体解释 ...
随机推荐
- .net下mysql存储过程返回自定义值(原创)
ado.net方法 public static string ExecuteQueryProc(string sConnStr, string sSql, Hashtable args) { MySq ...
- MUI(1)
今天小编用HBuilder+MUI开发移动APP,不用Android原生也不用IOS原生,仅仅用HTML5+MUI.小编也是初学者所以如有不准确的地方望大家指出帮助小编改正,同时也可以促进大家的深入学 ...
- Verilog学习笔记认识提升篇(一)...............时序的基本概念(待补充)
建立和保持时间: 建立时间(Tsu)是指在时钟上升沿到来之前数据必须保持稳定的时间,保持时间(Th)是指在时钟上升沿到来以后数据必须保持稳定的时间.一个数据需要在时钟的上升沿被锁存,那么这个数据就必须 ...
- buffer和cache有什么本质区别
在free命令展示机器的内存消耗情况,会像这样展示
- 【视频处理】YV12ToARGB
前面提到了YV12转RGB的各种实现方法和优化方法,主要是CPU上的实现.本文主要介绍基于GPU的YV12转RGB的实现. 1. 基于OpenGL的实现 利用OpenGL shader实现将YV12转 ...
- (转)B-树、B+树、B*树
B-树 是一种多路搜索树(并不是二叉的): 1.定义任意非叶子结点最多只有M个儿子:且M>2: 2.根结点的儿子数为[2, M]: 3.除根结点以外的非叶子结点的儿子数为[M/2, M]: 4. ...
- ZeroClipboard – 轻松实现复制文本到剪贴板功能
ZeroClipboard 库提供了一种把文本复制到剪贴板的简单方法.Zero 表示该库是不可见的,用户界面则完全取决于你. 该库完全兼容 Flash Player 10.0.0 或以上版本,这就要求 ...
- ASP.NET多文件上传实例
在Web应用程序开发中,避免不了要用到上传文件这个功能,但以前上传文件是个很麻烦的事,现在有了.NET,文件上传变得轻而易举.下面的这个例子实现了多文件上传功能.可以动态添加输入表单,上传的文件数量没 ...
- sharepoint2010如何本地化WebPart的Category、WebDisplayName 和 WebDescription 属性
在项目中经常需要实现多语言其中包括webpart的属性也需要.那么如何实现呢? 首先需要资源文件,利用资源文件实现语言的翻译,如下图: 创建好资源后,下面我们来实现webpart属性的多语言.方法代码 ...
- PHP代码审计中你不知道的牛叉技术点
一.前言 php代码审计如字面意思,对php源代码进行审查,理解代码的逻辑,发现其中的安全漏洞.如审计代码中是否存在sql注入,则检查代码中sql语句到数据库的传输 和调用过程. 入门php代码审计实 ...