摘要
HBase只提供了一个基于字典排序的主键索引,在查询中你只能通过行键查询或扫描全表来获取数据,使用Phoenix提供的二级索引,可以避免在查询数据时全表扫描,提高查过性能,提升查询效率
 
测试环境:
数据约370万
数据格式:(数据来自搜狗实验室)
三节点集群(一主两从,hadoop和HBase属同一集群)
 
目录
  • Covered Indexes(覆盖索引)
  • Functional indexes(函数索引)
  • Global indexes(全局索引)
  • Local indexes(本地索引)
 
索引类型
Covered Indexes(覆盖索引)
覆盖索引:只需要通过索引就能返回所要查询的数据,所以索引的列必须包含所需查询的列(SELECT的列和WHRER的列)
 
不带索引的查询:
查询USERID= 9bb8b2af925864bb275b840c578df3c3的KEYWORD和URL
EXPLAIN(语句的执行逻辑及计划):
(由图看知先进行了全表扫描再通过过滤器来筛选出目标数据,显示这种查询方式效率是很低的)
 
查询时间:(平均在38s~41s)
 
 
带索引:
(创建基于USERID的覆盖索引并绑定KEYWORD列上的数据)
  1. CREATE INDEX COVERINDEX ON CSVTANLES(USERID) INCLUDE(KEYWORD)
当你要通过UERID来查询KEYWORD时就直接可以从索引上取回数据而无需先得到索引再去数据表中查询数据
查询语句:
  1. SECECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'
 
EXPLAIN:
(使用了COVERINDEX索引使用SCAN在索引区间内查询)
 
查询用时(平均在49ms~70ms):
注意:SELECT所带的字段必须包含在覆盖索引内
 
Functional indexes(函数索引)
从Phoeinx4.3以上就支持函数索引,其索引不局限于列,可以合适任意的表达式来创建索引,当在查询时用到了这些表达式时就直接返回表达式结果
例2:使用UPPER函数创建函数索引使查询出的USERID和URL里字母都是大写的
创建函数索引
  1. CREATE INDEX UPPERINDEX ON CSVTABLES (UPPER(USERID || ' ' || URL))
查询:
 
Global indexes(全局索引)
全局索引适用于多读少写的场景,在写操作上会给性能带来极大的开销,因为所有的更新和写操作(DELETE,UPSERT VALUES和UPSERT SELECT)都会引起索引的更新,在读数据时,Phoenix将通过索引表来达到快速查询的目的。
在用使用全局索引之前需要在每个RegionServer上的hbase-site.xml添加如下属性:
  1. <property>
  2. <name>hbase.regionserver.wal.codec</name>
  3. <value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
  4. </property>
在USERID字段上创建索引
  1. CREATE INDEX USERIDINDEX ON CSVTABLES(USERID);
 
以下查询会用到索引
  1. SELECT USERID FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
 
  1. SELECT USERID,ROWKEY CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
 
以下查询不会用到索引
查询语句1.
  1. SELECT USERID,KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

(虽然USERID是索引字段,但KEYWORD不是索引字段,所以不会使用到索引)

 
查询语句2.

  1. SELECT KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3'

(同理,KEYWORD不是索引字段)

 
使用以下三种方式,执行查询语句2时也将用到索引.
1.创建包含字段KEYWORD的覆盖索引
  1. CREATE INDEX MYINDEX ON CSVTABLE(USERID) INCLUDE(KEYWORD);
 
2.强制使用索引
  1. SELECT /*+ INDEX(CSVTABLES,MYINDEX) */ KEYWORD FROM CSVTABLES WHERE USERID='9bb8b2af925864bb275b840c578df3c3';
如果KEYWORD是索引字段,那么就会直接从索引表中查询
如果KEYWORD不是索引字段,那么将会进行全表扫描,所以当用户明确知道表中数据较少且符合检索条件时才适用,此时的性能才是最佳的。
 
3.使用本地索引
  1. CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
 
Local indexes(本地索引)
本地索引适用于写多读少,空间有限的场景,和全局索引一样,Phoneix在查询时会自动选择是否使用本地索引,使用本地索引,为避免进行写操作所带来的网络开销,索引数据和表数据都存放在相同的服务器中,当查询的字段不完全是索引字段时本地索引也会被使用,与全局索引不同的是,所有的本地索引都单独存储在同一张共享表中,由于无法预先确定region的位置,所以在读取数据时会检查每个region上的数据因而带来一定性能开销。
在使用本地索引需要在Master的hbase-site.xml添加以下属性
  1. <property>
  2. <name>hbase.master.loadbalancer.class</name>
  3. <value>org.apache.phoenix.hbase.index.balancer.IndexLoadBalancer</value>
  4. </property>
  5. <property>
  6. <name>hbase.coprocessor.master.classes</name>
  7. <value>org.apache.phoenix.hbase.index.master.IndexMasterObserver</value>
  8. </property>
Phoeinx4.3以上为支持在数据region合并时本地索引region也能进行合并需要在每个region servers中添加以下属性
  1. <property>
  2. <name>hbase.coprocessor.regionserver.classes</name>
  3. <value>org.apache.hadoop.hbase.regionserver.LocalIndexMerger</value>
  4. </property>
创建本地索引
  1. CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
查询
  1. CREATE LOCAL INDEX MYINDEX ON CSVTABLES(USERID);
整个查询只花了0.19s
 
 
删除索引
  1. CREATE LOCAL INDEX MYINDEX ON CSVTABLES(KEYWORD);
如果表中的一个索引列被删除,则索引也将被自动删除,如果删除的是
覆盖索引上的列,则此列将从覆盖索引中被自动删除。
 
索引的优化
以下属性都必须在各节点上的hbase-site.xml中设置为true才能起效,
1.index.builder.threads.max:(默认值:10)
    根据主表的更新来确定更新索引表的线程数
 
2.index.builder.threads.keepalivetime:(默认值:60)
    builder线程池中线程的存活时间
 
3.index.write.threads.max:(默认值:10)
    更新索引表时所能使用的线程数(即同时能更新多少张索引表),其数量最好与索引表的数量一致
 
4.index.write.threads.keepalivetime(默认值:60)
     更新索引表的线程所能存活的时间
  
5.hbase.htable.threads.max(默认值:2147483647)
     每张索引表所能使用的线程(即在一张索引表中同时可以有多少线程对其进行写入更新),增加此值可以提高更新索引的并发量
 
6.hbase.htable.threads.keepalivetime(默认值:60)
     索引表上更新索引的线程的存活时间
 
7.index.tablefactoy.cache.size(默认值:10)
     允许缓存的索引表的数量
     增加此值,可以在更新索引表时不用每次都去重复的创建htable,由于是缓存在内存中,所以其值越大,其需要的内存越多

Phoenix二级索引(Secondary Indexing)的使用的更多相关文章

  1. Phoenix二级索引

    Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作.Hbase很优秀,一些团队 ...

  2. [Phoenix] 五、二级索引

    摘要: 目前HBASE只有基于字典序的主键索引,对于非主键过滤条件的查询都会变成扫全表操作,为了解决这个问题Phoenix引入了二级索引功能.然而此二级索引又有别于传统关系型数据库的二级索引,本文将详 ...

  3. HBase二级索引、读写流程

    HBase二级索引.读写流程 一.HBse二级索引方案 1.1 基于Coprocessor方案 1.2 Phoenix二级索引特点 1.3 Phoenix 二级索引方案 二.HBase读写流程 2.1 ...

  4. HBase学习(四) 二级索引 rowkey设计

    HBase学习(四) 一.HBase的读写流程 画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...

  5. 通过phoenix在hbase上创建二级索引,Secondary Indexing

    环境描述: 操作系统版本:CentOS release 6.5 (Final) 内核版本:2.6.32-431.el6.x86_64 phoenix版本:phoenix-4.10.0 hbase版本: ...

  6. 利用Phoenix为HBase创建二级索引

    为什么需要Secondary Index 对于Hbase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询.如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄. ...

  7. HBase的二级索引,以及phoenix的安装(需再做一次)

    一:HBase的二级索引 1.讲解 uid+ts 11111_20161126111111:查询某一uid的某一个时间段内的数据 查询某一时间段内所有用户的数据:按照时间 索引表 rowkey:ts+ ...

  8. 085 HBase的二级索引,以及phoenix的安装(需再做一次)

    一:问题由来 1.举例 有A列与B列,分别是年龄与姓名. 如果想通过年龄查询姓名. 正常的检索是通过rowkey进行检索. 根据年龄查询rowkey,然后根据rowkey进行查找姓名. 这样的效率不高 ...

  9. Phoenix系列:二级索引(2)

    上一篇介绍了Phoenix基于HBase的二级索引的基本知识,这一篇介绍一下和索引相关的一致性和优化相关内容. 一致性的保证 Phoenix客户端在成功提交一个操作并且得到成功响应后,就代表你所做的操 ...

随机推荐

  1. [置顶] Android的IPC访问控制设计与实现

    3.3.1 IPC钩子函数设计与实现 IPC Binder是Android最重要的进程间通信机制,因此,必须在此实施强制访问控制. 1. 修改secuirty.h 打开终端shell,输入指令“cd ...

  2. linux程序自启动和新建linux服务的方法

    1 linux创建自启动程序    自启动的两种方法,都经过自己测试.1.1 自启动程序方法1:    在etc/rc.local在里面加入/home/robin/code/autoruntest & ...

  3. 判断是否是IP地址

    static bool IsIP(QString IP) { QRegExp RegExp("((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\ ...

  4. 使用Mina框架开发 QQ Android 客户端

    Apache MINA是一个网络应用程序框架,用来帮助用户简单地开发高性能和高可靠性的网络应用程序.它提供了一个通过Java NIO在不同的传输例如TCP/IP和UDP/IP上抽象的事件驱动的异步AP ...

  5. [serverlet][转载: 深入理解HTTP Session]

    [serverlet][转载: 深入理解HTTP Session] 标签(空格分隔): 未分类 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任. ...

  6. IIS7 常用模块介绍说明

    1.1.0   IIS常用的功能模块介绍: 1)         静态内容:可发布静态 Web 文件格式,比如 HTML 页面和图像文件. 2)         默认文档:允许您配置当用户未在 URL ...

  7. 3.2:pandas数据的导入与导出【CSV,JSON】

    一:CSV数据 一]:导入数据 1)从CSV文件读入数据:pd.read_csv("文件名"),默认以逗号为分隔符 D:\data\ex1.csv文件内容:             ...

  8. 关于html页面图片自动撑开的问题

    如下列代码: <div id="divnr" style="text-align: center; margin: 10px; width:600px;" ...

  9. ArcGIS Server 9.3 安装(win7).

    概述: 安装的过程还不算复杂,但是有个地方需要注意:就是防火墙.需要将 "本机的防火墙" 关掉, 并将 "杀毒软件关闭"(360和avira都会乱来,搞得我安了 ...

  10. CentOS 5.5安装图解教程

    说明:实际生产环境中,CentOS 5.5这个版本相当稳定,而且硬件兼容性也很好,是很多服务器装机者的首选系统,下面介绍CentOS 5.5的具体安装过程   说明:实际生产环境中,CentOS 5. ...