一、shell 查询

hbase 查询相当简单，提供了get和scan两种方式，也不存在多表联合查询的问题。复杂查询需通过hive创建相应外部表，用sql语句自动生成mapreduce进行。
但是这种简单，有时为了达到目的，也不是那么顺手。至少和sql查询方式相差较大。

hbase 提供了很多过滤器，可对行键，列，值进行过滤。过滤方式可以是子串，二进制，前缀，正则比较等。条件可以是AND,OR等组合。所以通过过滤，还是能满足需求，找到正确的结果的。

1.1 过滤器类型

HBase 最新官方文档中文版(http://abloz.com/hbase/book.html)中有对过滤器的描述。过滤器分为5种类型：

构造型过滤器：用于包含其他一组过滤器的过滤器。包括：FilterList

列值型过滤器：对每列的值进行过滤的. 相当于sql查询中的=和like 包括：

SingleColumnValueFilter

比较器，包括：

RegexStringComparator 支持值比较的正则表达式

SubstringComparator 用于检测一个子串是否存在于值中。大小写不敏感。 

BinaryPrefixComparator 二进制前缀比较

BinaryComparator 二进制比较

键值元数据过滤器：用于对列进行过滤的。包括：

FamilyFilter 用于过滤列族。 通常，在Scan中选择ColumnFamilie优于在过滤器中做。

QualifierFilter 用于基于列名(即 Qualifier)过滤.

ColumnPrefixFilter 可基于列名(即Qualifier)前缀过滤。

MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为差不多，但可以指定多个前缀。

ColumnRangeFilter 可以进行高效内部扫描。

Rowkey：对行键进行过滤。通常认为行选择时Scan采用 startRow/stopRow 方法比较好。然而 RowFilter 也可以用。
工具：如FirstKeyOnlyFilter用于统计行数。

二、示例

1.FirstKeyOnlyFilter,一种方便的计算行数的过滤器

hbase(main):002:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>'info',FILTER=>"(FirstKeyOnlyFilter())"}

 0000000001                       column=info:loginid, timestamp=1343625459713, value=jjm168131013

 0000000002                       column=info:loginid, timestamp=1343625459713, value=loveswh

...

21 row(s) in 0.5480 seconds

2.列名子串进行过滤

hbase(main):006:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:'],FILTER=>"(QualifierFilter(=,'substring:id'))"}

ROW COLUMN+CELL

0000000001 column=info:loginid, timestamp=1343625459713, value=jjm168131013

0000000001 column=info:userid, timestamp=1343625459713, value=168131013

0000000002 column=info:loginid, timestamp=1343625459713, value=loveswh

0000000002 column=info:userid, timestamp=1343625459713, value=100898152

hbase(main):005:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:loginid'],FILTER=>"(QualifierFilter(=,'substring:id'))"}

ROW COLUMN+CELL

0000000001 column=info:loginid, timestamp=1343625459713, value=jjm168131013

0000000002 column=info:loginid, timestamp=1343625459713, value=loveswh

hbase(main):007:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:'],FILTER=>"(QualifierFilter(=,'substring:nid'))"}

ROW COLUMN+CELL

0000000001 column=info:loginid, timestamp=1343625459713, value=jjm168131013

0000000002 column=info:loginid, timestamp=1343625459713, value=loveswh

hbase(main):008:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:'],FILTER=>"(QualifierFilter(=,'substring:nick'))"}

ROW COLUMN+CELL

0000000001 column=info:nick, timestamp=1343625459713, value=\xE5\xAE\xB6\xE6\x9C\x89\xE8\x99\x8E\xE5\xAE\x9

D

0000000002 column=info:nick, timestamp=1343625459713, value=loveswh08

3.Value 过滤

3.1 正则过滤

hbase(main):004:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>'info',FILTER=>"(SingleColumnValueFilter('info','nick',=,'regexstring:.*99',true,true))"}

ROW                               COLUMN+CELL

 0000000009                       column=info:loginid, timestamp=1343625459713, value=zgh1968

 0000000009                       column=info:nick, timestamp=1343625459713, value=zwy99

 0000000009                       column=info:score, timestamp=1343625459713, value=5

 0000000009                       column=info:userid, timestamp=1343625459713, value=100366262

1 row(s) in 0.2520 seconds

3.2 子串

需导入

import org.apache.hadoop.hbase.filter.CompareFilter

import org.apache.hadoop.hbase.filter.SingleColumnValueFilter

import org.apache.hadoop.hbase.filter.SubstringComparator

import org.apache.hadoop.hbase.util.Bytes

hbase(main):028:0> scan 'toplist_ware_ios_1001_201231',{COLUMNS =>'info:nick', FILTER=>SingleColumnValueFilter.new(Bytes.toBytes('info'),Bytes.toBytes('nick'),CompareFilter::CompareOp.valueOf('EQUAL'),SubstringComparator.new('8888'))}

ROW COLUMN+CELL

0000000002 column=info:nick, timestamp=1343625446556, value=\xE7\x81\x8F????\xE3\x81\x8A??8888

1 row(s) in 0.0330 seconds

3.3 二进制

子串等不支持多字节文字，所以用二进制来进行比较

hbase(main):010:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:'],FILTER=>"(QualifierFilter(=,'substring:nick') AND ValueFilter(=,'binary:7789\xE6\xB4\x81') )"}

ROW COLUMN+CELL

0000000016 column=info:nick, timestamp=1343625459713, value=7789\xE6\xB4\x81

1 row(s) in 0.1710 seconds

4 综合列名子串和值二进制比较

hbase(main):012:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>['info:'],FILTER=>"(QualifierFilter(=,'substring:nick') AND ValueFilter(=,'binary:7789\xE6\xB4\x81') )"}

ROW COLUMN+CELL

0000000016 column=info:nick, timestamp=1343625459713, value=7789\xE6\xB4\x81

1 row(s) in 0.0120 seconds

hbase(main):014:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>"info:",FILTER=>"(PrefixFilter('000000002')) AND (QualifierFilter(=,'substring:nick')"}

ROW COLUMN+CELL

 0000000020 column=info:nick, timestamp=1343625459713, value=Denny_feng

 0000000021 column=info:nick, timestamp=1343625459713, value=\xE5\xB0\x8F\xE7\xBD\x97\xE6\x95\x99\xE7\xBB\x8

 31

2 row(s) in 0.0440 seconds

5. 行查询

hbase(main):005:0> get 'toplist_ware_ios_1009_201231','0000000009'

COLUMN CELL

 info:loginid timestamp=1343625459713, value=zgh1968

 info:nick timestamp=1343625459713, value=zwy99

 info:score timestamp=1343625459713, value=5

 info:userid timestamp=1343625459713, value=100366262

4 row(s) in 0.1000 seconds

hbase(main):006:0> get 'toplist_ware_ios_1009_201231','0000000009','info:nick'

COLUMN CELL

 info:nick timestamp=1343625459713, value=zwy99

1 row(s) in 0.0100 seconds

hbase(main):009:0> scan 'toplist_ware_ios_1009_201231',FILTER=>"PrefixFilter('000000002')"

ROW COLUMN+CELL

 0000000020 column=info:loginid, timestamp=1343625459713, value=jjm169212318

 0000000020 column=info:nick, timestamp=1343625459713, value=Denny_feng

 0000000020 column=info:score, timestamp=1343625459713, value=1

 0000000020 column=info:userid, timestamp=1343625459713, value=169212318

 0000000021 column=info:loginid, timestamp=1343625459713, value=jjm169371841

 0000000021 column=info:nick, timestamp=1343625459713, value=\xE5\xB0\x8F\xE7\xBD\x97\xE6\x95\x99\xE7\xBB\x8

 31

 0000000021 column=info:score, timestamp=1343625459713, value=1

 0000000021 column=info:userid, timestamp=1343625459713, value=169371841

2 row(s) in 0.0180 seconds

hbase(main):010:0> scan 'toplist_ware_ios_1009_201231',FILTER=>"PrefixFilter('000000002')",LIMIT=>1

ROW COLUMN+CELL

 0000000020 column=info:loginid, timestamp=1343625459713, value=jjm169212318

 0000000020 column=info:nick, timestamp=1343625459713, value=Denny_feng

 0000000020 column=info:score, timestamp=1343625459713, value=1

 0000000020 column=info:userid, timestamp=1343625459713, value=169212318

1 row(s) in 0.0170 seconds

hbase(main):011:0> scan 'toplist_ware_ios_1009_201231',{COLUMNS=>"info:nick",FILTER=>"PrefixFilter('000000002')",LIMIT=>1}

ROW COLUMN+CELL

 0000000020 column=info:nick, timestamp=1343625459713, value=Denny_feng

1 row(s) in 0.0160 seconds

hbase查询,scan详解的更多相关文章

HBase 协处理器编程详解，第二部分：客户端代码编写
实现 Client 端代码 HBase 提供了客户端 Java 包 org.apache.hadoop.hbase.client.coprocessor.它提供以下三种方法来调用协处理器提供的服务: ...
MongoDB各种查询操作详解
这篇文章主要介绍了MongoDB各种查询操作详解,包括比较查询.关联查询.数组查询等,需要的朋友可以参考下一.find操作 MongoDB中使用find来进行查询,通过指定find的第一个参数可 ...
hibernate(七) hibernate中查询方式详解
序言之前对hibernate中的查询总是搞混淆,不明白里面具体有哪些东西.就是因为缺少总结.在看这篇文章之前,你应该知道的是数据库的一些查询操作,多表查询等,如果不明白,可以先去看一下 MySQL数 ...
【Solr】索引库查询界面详解
目录索引库查询界面详解回到顶部索引库查询界面详解 q:主查询条件.完全支持lucene语法.还进行了扩展. fq:过滤查询.是在主查询条件查询结果的基础上进行过滤.例如:product_pric ...
MySQL日志文件之错误日志和慢查询日志详解
今天天气又开始变得很热了,虽然很热很浮躁,但是不能不学习,我在北京向各位问好.今天给大家分享一点关于数据库日志方面的东西,因为日志不仅讨厌而且还很重要,在开发中时常免不了与它的亲密接触,就在前几天公司 ...
Hadoop生态圈-Hbase的Region详解
Hadoop生态圈-Hbase的Region详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Django框架之 ORM查询操作详解
Django框架之 ORM查询操作详解浏览目录一般操作 ForeignKey操作 ManyToManyField 聚合查询分组查询 F查询和Q查询事务 Django终端打印SQL语句在Py ...
ELK查询命令详解
目录 ELK查询命令详解倒排索引使用ElasticSearch API 实现CRUD 批量获取文档使用Bulk API 实现批量操作版本控制什么是Mapping? 基本查询(Query查询) ...
【转】MySQL查询缓存详解
[转]MySQL查询缓存详解转自:https://www.cnblogs.com/Alight/p/3981999.html 相关文章:http://www.zsythink.net/archive ...

随机推荐

安装Nginx+uWSGI+Django环境
Ubuntu Server 12.04 安装Nginx+uWSGI+Django环境今天要介绍的是利用APT源直接apt-get install安装配置我们所需要的环境,首先按惯例先安装MySQL和 ...
iis7+php5.6配置404错误页面的问题
打开错误页,如图1 图1 1.刚开始选择的是“在此网站上执行URL”,/404.html页面可以显示出来,但返回的状态是200,对seo不友好,这样生成的的web.config配置文件如下: < ...
windows上传文件到linux
1.在putty的网站上下载putty跟pscp 2.安装ssh跟putty sudo apt-get install openssh-server sudo apt-get install putt ...
Cassandra安装及其简单试用
官方主页:http://cassandra.apache.org/ 简介: The Apache Cassandra Project develops a highly scalable second ...
ConcurrentHashMap使用要点
ConcurrentHashMap的简要总结: 1.public V get(Object key)不涉及到锁,也就是说获得对象时没有使用锁: 2.put.remove方法要使用锁,但并不一定有锁争用 ...
在Windows驗證網站設定部分匿名存取
最近接連遇到幾次的需求:供內部使用的ASP.NET網站,全站使用Windows驗證,使用者以網域AD帳號登入,但網站包含少數API性質的ASHX.ASPX或MVC Action,提供其他系統呼叫整合. ...
使用Aspose.Words把 word转成图片
Document doc = new Document("f:\\333.doc"); ImageSaveOptions iso = new ImageSaveOptions(Sa ...
Java中的大数处理类BigInteger和BigDecimar浅析
这两个类位于java.math包内,要使用它们必须在类前面引用该包:import java.math.BigInteger;和import java.math.BigDecimal; BigInteg ...
蓝桥杯---地宫取宝（记忆搜索=搜索+dp）
题目网址:http://lx.lanqiao.org/problem.page?gpid=T120 问题描述 X 国王有一个地宫宝库.是 n x m 个格子的矩阵.每个格子放一件宝贝.每个宝贝贴着价值 ...
html 去掉input 获取焦点时的边框
html中,当input标签获取焦点的时候(例如,当光标放在input框中准备输入值时), input标签外围会出现边框,有的时候我们需要去掉这个边框,可以使用css的outline:none;属性将 ...

hbase查询,scan详解