我们会经常谈及二级索引,这是对全表数据进行另外一种方式的组织存储,是针对table级别的。如果要为HBase上的表实现一个强一致性的二级索引,那么就无法逃避分布式事务,而这一直是用户最期待的功能。 而即使只需要保证最终一致性,这个索引也并不好实现,因为你需要额外的表以存储过程数据,需要解决宕机恢复问题等

撇开分布式事务,我们是否可以考虑对索引的要求进行降级,比如把Region看成是全表下的子表,实现一套Region级别的索引,通过功能上的牺牲以换取实现的简易及稳定。

在某些存在用户概念的场景下,比如消费记录,我们总是会在确定的用户下,进行数据查找。这意味着,在此类场景中,我们只需要一个用户级别的索引。

举个例子,对于一笔交易记录,我们至少会有这么几个维度:

用户Id,交易时间,交易金额,交易状态(还会有交易名称,交易号ID,对方ID等)

当存储于HBase时,一般可以这么组织:

RowKey= 用户Id+交易时间

列1=交易金额

列2=交易状态

所以当我们要读取某个用户的在某段时间内的交易记录的时候,我们可以设置一个Scan:

startRow=用户Id+开始时间

stopRow=用户Id+结束时间

如果我们要增加查找条件,进行过滤,比如要读取某个用户在某段时间内交易状态为取消的交易记录,我们可以为上述Scan设置一个Filter,来过滤不符合查询条件的结果。

如果这是一个大商户,某段时间内的交易记录数巨多,通过设置Filter来过滤的方式就显得效率低下,开销巨大。

为了优化此类查找,业务只能自建索引表,可以如下组织:

RowKey= 用户Id+交易状态+交易时间

列1=交易金额

由此产生的问题时,当产生一笔交易记录的时候,我们需要向2张表中写入数据,不用说原子性,为了保证最终一致性,也得会花费不少的力气

彼之痛,己之痛,或许一个Region级别的索引存储能有一定的疗效。

什么是Region级别的索引存储

我们知道在HBase的结构中,一个Region可以包含多个Store,而索引存储则也是Region下面的一个Store,我们称其为Assistant Store,但它会有一些不同点:

a.Assistant Store中的数据由Regionserver按照用户配置的规则自动写入,是源数据的一份拷贝,但是拥有不同的组织方式

b.Assistant Store中的数据可以不遵守Region的Row范围限制

c.Assistant Store中的数据由用户主动选择读取(不会智能的自动利用)

d.Assistant Store中的数据在Split时,遵守与源数据对应的原则

(可以先看例子)

一个简单的例子

假设现在表只有一个Region,往表写入以下6行数据:

r1/c1:q1/v1

r2/c1:q1/v2

r3/c1:q1/v1

r4/c1:q1/v2

r5/c1:q1/v1

r6/c1:q1/v2

如果我们已为这个表配置了一个简单的索引存储,该Assistant Store命名为c2,那么除了上面的数据,Region中还会包含以下数据:

v1/c2:q1/r1

v1/c2:q1/r3

v1/c2:q1/r5

v2/c2:q1/r2 (在插入源数据的时候自动生成,存在Assistant Store中)

v2/c2:q1/r4

v2/c2:q1/r6

显然,这些是简单的倒置索引数据(可以由用户定义生成的数据如何组织),当你对表进行正常的scan时候,你只能见到源数据,即r1,r2,…,r6。 但是你可以通过某种方式,访问Assistant Store中的数据,即v1,v2,以加快条件查找

Region分裂处理

如果我们将上面这个例子中的Region进行Split,Split row为’r4′,那么源数据就会被分落在两个子Region中,Daughter_A 和 Daughter_B;

Daughter_A 包含如下源数据:

r1/c1:q1/v1

r2/c1:q1/v2

r3/c1:q1/v1

Daughter_B 包含如下源数据:

r4/c1:q1/v2

r5/c1:q1/v1

r6/c1:q1/v2

Assistant Store中的生成数据会遵守与源数据对应的原则,

Daughter_A 的Assistant Store中的索引数据为:

v1/c2:q1/r1

v1/c2:q1/r3

v2/c2:q1/r2

Daughter_B 的Assistant Store中的索引数据为:

v1/c2:q1/r5

v2/c2:q1/r4

v2/c2:q1/r6

原子性和一致性

解决了数据组织的问题,我们来看看如何保证源数据和生成数据间的原子性和一致性。

从上面的例子描述中,我们知道,设置了索引存储后,当我们写入一行数据时,实际上会存储多行数据,但这多行数据都是在同个Region中,这意味着可以用一个本地事务解决这多行数据的事务写入。或许有些用户不知道,HBase-0.94版本早就实现了本地Region的多行事务。

回看Region级别的索引存储的特点

a.Assistant Store中的数据由Regionserver按照用户配置的规则自动写入,是源数据的一份拷贝,但是拥有不同的组织方式

用户可以通过扩展类Assistant,来生成自己定义的数据格式,存储到Assistant Store中,

比如对于r1/c1:q1/v1,你可以生成一行v1/c1:q1/r1, 也可以生成一行v1r1/c1:q1/r1,也可以生成多行,但是生成的数据有一个限制,就是value值必须为源数据中的row值,这是为了保证源数据与生成数据之间能对应起来,当Region进行分裂的时候,索引数据和源数据仍然是对应的

b.Assistant Store中的数据可以不遵守Region的Row范围限制

从上面的例子中,我们可以看出,Assistant Store中的数据的Row是由用户自定义的,所以其Row是任意的,不会在Region的Row范围内

c.Assistant Store中的数据由用户主动选择读取(不会智能的自动利用)

Assistant Store中的数据的写入用系统自动控制,但是目前的设计中,读取由用户主动发起

d.Assistant Store中的数据在Split时,遵守与源数据对应的原则

优劣分析

优点:

1.设计简单,实现方便

2.加速条件Scan ,提高效率

3.相比于不设置索引存储,写入性能几乎不受影响,因为多行数据只会写一次Log

(无论是分布式事务,或者用户自己写入多张表,都无法避免写入多行数据时要多次写Log)

缺点:

1.额外存储空间

2.相比于全局意义上的二级索引,使用上会有局限性

 

重新思考上面的交易记录的案例

如果有了Region级别的索引存储,我们可以为交易记录表设置1个或多个Assistant Store,

源数据的组织仍然同上:

RowKey= 用户Id+交易时间

列1=交易金额

列2=交易状态

Assistant Store中的数据组织为:

RowKey= 用户Id+交易状态+交易时间

列1=交易金额

虽然结构上和用户写多张表一样,但是不需要为解决原子性和一致性而烦恼。

当然细心的读者,会发现从Assistant Store中扫描出来的数据无法做到ordered by 源数据中的Row,要做到ordered by  Assistant Store中的Row也得花一定的力气。

怎么使用索引存储?

功能的基本代码已开发完,可以见https://issues.apache.org/jira/browse/HBASE-8980

如何让目前的HBase用户平滑使用,也是一个不小的难题,主要是有这么几点。

1.API使用

按照目前的设计,用户需要通过Scan方式主动的去读取索引存储,示例

01 //从源数据的Row上 限制扫描范围
02 Scan scan = new Scan();
03 scan.setStartRow(‘r1′);
04 scan.setStopRow(‘r7′);
05
06 //创建在Assistant Store运行的Scan,从v2 到 v2+
07 Scan assistantScan = new Scan().setStartRow(‘v2′).setStopRow(‘v2′+’(byte)0×00′);
08 //设置这个以后,Region在解析的时候,会在Assistant Store上运行这个Scan
09 scan.setAssistantScan(assistantScan);
10
11 scanner = htable.getScanner(scan);
12 for(Result result:scanner){
13 //输出
14 v2/c2:q1/r2
15 v2/c2:q1/r4
16 v2/c2:q1/r6
17 }

2.Ordered by特性保证

目前实现中没有,准备后续再添加

3.已有数据的索引追加

目前实现中没有,准备后续再添加

转自:http://zjushch.iteye.com/blog/1910218

HBase Region级别二级索引的更多相关文章

  1. HBase协处理器同步二级索引到Solr

    一. 背景二. 什么是HBase的协处理器三. HBase协处理器同步数据到Solr四. 添加协处理器五. 测试六. 协处理器动态加载 一. 背景 在实际生产中,HBase往往不能满足多维度分析,我们 ...

  2. 通过phoenix在hbase上创建二级索引,Secondary Indexing

    环境描述: 操作系统版本:CentOS release 6.5 (Final) 内核版本:2.6.32-431.el6.x86_64 phoenix版本:phoenix-4.10.0 hbase版本: ...

  3. Hbase(三) hbase协处理器与二级索引

    一.协处理器—Coprocessor 1. 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hb ...

  4. HBase 协处理器实现二级索引

    HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性.下面简单介绍下两种coprocessors,第一种是Observers,它实际类 ...

  5. HBase协处理器同步二级索引到Solr(续)

    一. 已知的问题和不足二.解决思路三.代码3.1 读取config文件内容3.2 封装SolrServer的获取方式3.3 编写提交数据到Solr的代码3.4 拦截HBase的Put和Delete操作 ...

  6. CDH6 高版本hbase+solr实现二级索引

    之前的环境是单独下载的CDH组件包搭建的集群,但是因为hadoop版本过低导致漏洞无法修复,重新搭建高版本集群环境. 新集群环境: 主要组件:hadoop,hbase,zookeeper,Key-Va ...

  7. HBase 二级索引与Join

    二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案. 这篇文章会以HBase做为对象来探讨如何基于Hba ...

  8. HBase二级索引与Join

    转自:http://www.oschina.net/question/12_32573 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也 ...

  9. HBase二级索引方案总结

    转自:http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html 附hbase如何创建二级索引以及创建二级索引实例:http://www.aboutyun ...

随机推荐

  1. 剑指Offer——二叉树

    剑指Offer--二叉树 前言 数据结构通常是编程面试中考察的重点.在参加面试之前,应聘者需要熟练掌握链表.树.栈.队列和哈希表等数据结构,以及它们的操作.本片博文主要讲解二叉树操作的相关知识,主要包 ...

  2. parcel和parcelable

    Parcel 在英文中有两个意思,其一是名词,为包裹,小包的意思: 其二为动词,意为打包,扎包.邮寄快递中的包裹也用的是这个词.Android采用这个词来表示封装消息数据.这个是通过IBinder通信 ...

  3. Dynamics CRM 报表导出EXCEL 列合并问题的解决方法

    CRM中的报表导出功能提供了多种格式,excel就是其中之一,这次遇到的问题是导出后打开excel列明合并的问题,具体如下看着相当不美观,物料名称字段占了AB两列,品牌占了CD两列等等. 该问题的源头 ...

  4. iOS中 static变量与全局、局部变量的区别 !

    static变量与全局.局部变量的区别 全局变量(外部变量)的说明之前再冠以static 就构成了静态的全局变量.全局变量本身就是静态存储方式,静态全局变量当然也是静态存储方式. 这两者在存储方式上并 ...

  5. Asp.net实现下拉框和列表框的连动

    走过了牛腩老师的新闻发布系统,漫游过了孙鑫老师的Html,在427沐浴第一缕冬日阳光的美丽月底,小编迎来了北大青鸟的Asp.net,北大青鸟,高大上的赶脚有么有,哈哈哈,开始了小编的.net之旅. 首 ...

  6. Android官方命令深入分析之虚拟机

    Android SDK包含了一个运行在计算机上的移动设备虚拟机.这个虚拟机可以允许你在没有物理设备的情况下开发和测试Android应用. 键盘命令 虚拟设备按键 对应键盘按键 Home HOME 菜单 ...

  7. SpringMVC项目中启动自加载Listener

    package com.kuman.cartoon.listener; import java.util.List; import org.springframework.beans.factory. ...

  8. C++编译器何时为用户提供默认构造函数

    第一种是类成员中有成员是类对象,并且该成员的类含有默认构造函数,那么C++编译器会帮你给这个类也生成一个默认构造函数,用来调用其成员对象的构造函数,完成该成员的初始化构造.需要强调的是,如果这个成员的 ...

  9. 四大组件之ContentProvider小结

    总结提高,与君共勉 1.什么是Content Provider 内容提供器( Content Provider)主要用于在不同的应用程序之间实现数据共享的功能,提供了一套完整的机制,允许一个程序访问另 ...

  10. android View层的绘制流程

    还记得前面<Android应用setContentView与LayoutInflater加载解析机制源码分析>这篇文章吗?我们有分析到Activity中界面加载显示的基本流程原理,记不记得 ...