Phoenix二级索引(Secondary Indexing)的使用

摘要

HBase只提供了一个基于字典排序的主键索引，在查询中你只能通过行键查询或扫描全表来获取数据，使用Phoenix提供的二级索引，可以避免在查询数据时全表扫描，提高查过性能，提升查询效率

测试环境：

数据约370万

数据格式：(数据来自搜狗实验室)

三节点集群（一主两从，hadoop和HBase属同一集群）

Covered Indexes(覆盖索引)
Functional indexes(函数索引)
Global indexes(全局索引)
Local indexes(本地索引)

索引类型

Covered Indexes(覆盖索引)

覆盖索引：只需要通过索引就能返回所要查询的数据，所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)

不带索引的查询：

查询USERID= 9bb8b2af925864bb275b840c578df3c3的KEYWORD和URL

EXPLAIN(语句的执行逻辑及计划):

(由图看知先进行了全表扫描再通过过滤器来筛选出目标数据，显示这种查询方式效率是很低的)

查询时间：（平均在38s~41s）

带索引：

(创建基于USERID的覆盖索引并绑定KEYWORD列上的数据)

CREATE INDEX COVERINDEX ON CSVTANLES(USERID) INCLUDE(KEYWORD)

当你要通过UERID来查询KEYWORD时就直接可以从索引上取回数据而无需先得到索引再去数据表中查询数据

查询语句：

SECECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

EXPLAIN:

（使用了COVERINDEX索引使用SCAN在索引区间内查询）

查询用时（平均在49ms~70ms）：

注意：SELECT所带的字段必须包含在覆盖索引内

Functional indexes(函数索引)

从Phoeinx4.3以上就支持函数索引，其索引不局限于列，可以合适任意的表达式来创建索引，当在查询时用到了这些表达式时就直接返回表达式结果

例2：使用UPPER函数创建函数索引使查询出的USERID和URL里字母都是大写的

创建函数索引

CREATE INDEX UPPERINDEX ON CSVTABLES (UPPER(USERID || '  ' || URL))

查询：

Global indexes(全局索引)

全局索引适用于多读少写的场景，在写操作上会给性能带来极大的开销，因为所有的更新和写操作（DELETE,UPSERT VALUES和UPSERT SELECT）都会引起索引的更新,在读数据时，Phoenix将通过索引表来达到快速查询的目的。

在用使用全局索引之前需要在每个RegionServer上的hbase-site.xml添加如下属性：

<property>

   <name>hbase.regionserver.wal.codec</name>

   <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>

</property>

在USERID字段上创建索引

CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);

以下查询会用到索引

SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

SELECT USERID,ROWKEY CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

以下查询不会用到索引

查询语句1.

SELECT USERID,KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

(虽然USERID是索引字段，但KEYWORD不是索引字段，所以不会使用到索引)

查询语句2.

SELECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

（同理，KEYWORD不是索引字段）

使用以下三种方式，执行查询语句2时也将用到索引.

1.创建包含字段KEYWORD的覆盖索引

CREATE INDEX MYINDEX ON CSVTABLE(USERID) INCLUDE(KEYWORD);

2.强制使用索引

SELECT /*+ INDEX(CSVTABLES,MYINDEX) */ KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';

如果KEYWORD是索引字段，那么就会直接从索引表中查询

如果KEYWORD不是索引字段，那么将会进行全表扫描，所以当用户明确知道表中数据较少且符合检索条件时才适用，此时的性能才是最佳的。

3.使用本地索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);

Local indexes(本地索引)

本地索引适用于写多读少，空间有限的场景，和全局索引一样，Phoneix在查询时会自动选择是否使用本地索引，使用本地索引，为避免进行写操作所带来的网络开销，索引数据和表数据都存放在相同的服务器中，当查询的字段不完全是索引字段时本地索引也会被使用，与全局索引不同的是，所有的本地索引都单独存储在同一张共享表中，由于无法预先确定region的位置，所以在读取数据时会检查每个region上的数据因而带来一定性能开销。

在使用本地索引需要在Master的hbase-site.xml添加以下属性

<property>

   <name>hbase.master.loadbalancer.class</name>

   <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>

</property>

<property>

   <name>hbase.coprocessor.master.classes</name>

   <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>

</property>

Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个region servers中添加以下属性

<property>

   <name>hbase.coprocessor.regionserver.classes</name>

   <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value>

</property>

创建本地索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);

查询

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);

整个查询只花了0.19s

删除索引

CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);

如果表中的一个索引列被删除，则索引也将被自动删除，如果删除的是

覆盖索引上的列，则此列将从覆盖索引中被自动删除。

索引的优化

以下属性都必须在各节点上的hbase-site.xml中设置为true才能起效，

1.index.builder.threads.max:（默认值：10）

根据主表的更新来确定更新索引表的线程数

2.index.builder.threads.keepalivetime：（默认值：60）

builder线程池中线程的存活时间

3.index.write.threads.max:（默认值：10）

更新索引表时所能使用的线程数(即同时能更新多少张索引表)，其数量最好与索引表的数量一致

4.index.write.threads.keepalivetime（默认值：60）

更新索引表的线程所能存活的时间

5.hbase.htable.threads.max（默认值：2147483647）

每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新)，增加此值可以提高更新索引的并发量

6.hbase.htable.threads.keepalivetime（默认值：60）

索引表上更新索引的线程的存活时间

7.index.tablefactoy.cache.size（默认值：10）

允许缓存的索引表的数量

增加此值，可以在更新索引表时不用每次都去重复的创建htable，由于是缓存在内存中，所以其值越大，其需要的内存越多

Phoenix二级索引(Secondary Indexing)的使用的更多相关文章

Phoenix二级索引
Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作.Hbase很优秀,一些团队 ...
[Phoenix] 五、二级索引
摘要: 目前HBASE只有基于字典序的主键索引,对于非主键过滤条件的查询都会变成扫全表操作,为了解决这个问题Phoenix引入了二级索引功能.然而此二级索引又有别于传统关系型数据库的二级索引,本文将详 ...
HBase二级索引、读写流程
HBase二级索引.读写流程一.HBse二级索引方案 1.1 基于Coprocessor方案 1.2 Phoenix二级索引特点 1.3 Phoenix 二级索引方案二.HBase读写流程 2.1 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...
通过phoenix在hbase上创建二级索引，Secondary Indexing
环境描述: 操作系统版本:CentOS release 6.5 (Final) 内核版本:2.6.32-431.el6.x86_64 phoenix版本:phoenix-4.10.0 hbase版本: ...
利用Phoenix为HBase创建二级索引
为什么需要Secondary Index 对于Hbase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询.如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄. ...
HBase的二级索引，以及phoenix的安装（需再做一次）
一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据查询某一时间段内所有用户的数据:按照时间索引表 rowkey:ts+ ...
085 HBase的二级索引，以及phoenix的安装（需再做一次）
一:问题由来 1.举例有A列与B列,分别是年龄与姓名. 如果想通过年龄查询姓名. 正常的检索是通过rowkey进行检索. 根据年龄查询rowkey,然后根据rowkey进行查找姓名. 这样的效率不高 ...
Phoenix系列：二级索引（2）
上一篇介绍了Phoenix基于HBase的二级索引的基本知识,这一篇介绍一下和索引相关的一致性和优化相关内容. 一致性的保证 Phoenix客户端在成功提交一个操作并且得到成功响应后,就代表你所做的操 ...

随机推荐

C++ lambda 表达式传递的变量默认不可变
我遇到例如以下问题: int count=0; listener->onTouchMoved=[count](Touch* t,Event* e){ count++; log("onT ...
resin config 中文(resin.xml)
 <resin xmlns="http://caucho.com/ns/resin" xmlns:resin= ...
Spring Data Redis—Pub/Sub（附Web项目源码）
一.发布和订阅机制当一个客户端通过 PUBLISH 命令向订阅者发送信息的时候,我们称这个客户端为发布者(publisher). 而当一个客户端使用 SUBSCRIBE 或者 PSUBSCRIBE ...
ZCTF-Restaurant-Pwn500
版权声明:本文为博主原创文章,未经博主允许不得转载. 这道压轴的题也是名副其实,很有分量.这也是自己第二次做C++类型的PWN.含有两个漏洞,缺一不可,一个漏洞将指定位置覆盖为对象虚表的地址,另外一个 ...
颜色矩阵滤镜 ColorMatrix
颜色矩阵原理色彩的三要素 1.色相.色相通俗的说就是"颜色",色相的改变就是颜色的改变,色相的调节伴随着红橙黄绿蓝紫的变化. 2.亮度.明度通俗的说就是"光照度&quo ...
初探CSS
css基本框架 index.html <!DOCTYPE html> <html> <head> <meta charset="utf-8" ...
bug记录-setTimeout、setInterval之IOS7
本篇文章主要讲查找并分析bug的思路,相关的函数不是本文的重点. 众所周知,setTimeout和setInterval是用来做延迟调用以及周期性调用的方法,他们支持的参数都差不多. setTimeo ...
IE6不能用class命名！IE6不能用class命名！IE6不能用class命名！重要的事情说3遍
IE6不能用class命名!IE6不能用class命名!IE6不能用class命名! 重要的事情说3遍
Objective-C探究alloc方法的实现
OS X,iOS中的大部分作为开源软件公开在 Apple Open Source 上.虽然想让大家参考NSObject类的源代码,但是很遗憾,包含NSObject类的Foundation框架没有公开. ...
jQuery源码分析1
写在开头: 昨天开始,我决定要认真的看看jQuery的源码,选择1.7.2,源于公司用的这个版本.由于源码比较长,这将会是一个比较持久的过程,我将要利用业余时间,和偶尔上班不算忙的时间来进行.其实原本 ...

Phoenix二级索引(Secondary Indexing)的使用

Phoenix二级索引(Secondary Indexing)的使用的更多相关文章

随机推荐

热门专题