Coprocessor是HBase 0.92.0引入的特性。使用Coprocessor。能够将一些计算逻辑下推到HBase节点，HBase由一个单纯的存储系统升级为分布式数据处理平台。

Coprocessor分为两种：Observer和Endpoint。

Observer能改动扩展已有的client操作功能。而Endpoint能引入新的client操作。

Observer

Observer的作用类似于数据库的触发器或者AOP中的advice。下图为Put操作添加Observer，当中1-2-4-6是一次正常的Put操作RPC调用过程，而3和5属于Observer，能够在Put操作之前和之后添加自己定义处理逻辑。

Observer包含三种，RegionObserver（针对数据訪问和更新操作，执行在Region上）/WALObserver（针对WAL日志事件，执行在RegionServer上下文）/MasterObserver（针对DDL操作，执行在Master节点）。

Endpoint

Endpoint的作用则类似于数据库存储过程。实现机制是通过扩展HBase RPC协议，给client暴露新的操作接口。

例如以下图，client负责发起调用和收集结果，服务端各节点负责并行计算。

实战

以上一章的follows表为例，通过Observer实现followedBy被关注表数据一致性维护。Endpoint实现关注人数量统计。

由于要实如今插入follows表时自己主动插入followedBy表。须要用到关注人/被关注人username信息，所以首先升级schema。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaWRvbnR3YW50b2Jl/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

实现Observer

代码中有三处凝视值得注意：

postPut方法在put操作之后被调用。
假设通过hbase-site.xml安装Observer。会应用到全局全部表，所以这里推断put操作的是否follows表。
这里有点bad smell。Observer执行在服务器端。为了共用代码，又调用client代码，仅为演示作用。

packageHBaseIA.TwitBase.coprocessors;

//…

publicclass FollowsObserver extends BaseRegionObserver {

    private HTablePool pool = null;

    @Override

    public void start(CoprocessorEnvironment env)throws IOException {

        pool = newHTablePool(env.getConfiguration(), Integer.MAX_VALUE);

    }

    @Override

    public void stop(CoprocessorEnvironment env)throws IOException {

        pool.close();

    }

    @Override

    public void postPut(//1,在Put操作之后调用

            finalObserverContext<RegionCoprocessorEnvironment> e,

            final Put put,

            final WALEdit edit,

            final boolean writeToWAL) throws IOException {

        byte[] table=e.getEnvironment().getRegion().getRegionInfo().getTableName();

        if (!Bytes.equals(table,FOLLOWS_TABLE_NAME))

             return;  //2,推断表名

        KeyValue kv =put.get(RELATION_FAM, FROM).get(0);

        String from =Bytes.toString(kv.getValue());

        kv = put.get(RELATION_FAM,TO).get(0);

        String to =Bytes.toString(kv.getValue());

        RelationsDAO relations = newRelationsDAO(pool);

        relations.addFollowedBy(to,from);//3,插入followedBy表

    }

}

Observer的安装能够通过改动hbase-site.xml或者使用tableschema改动语句完毕，前者须要重新启动HBase服务，后者仅仅须要又一次上下线相应表。

$ hbase shell

HBaseShell; enter 'help<RETURN>' for list of supported commands.

Type"exit<RETURN>" to leave the HBase Shell

Version0.92.0, r1231986, Mon Jan 16 13:16:35 UTC 2012

hbase(main):001:0>disable 'follows'

0 row(s) in 7.0560 seconds

hbase(main):002:0>alter 'follows', METHOD => 'table_att',

'coprocessor'=>'file:///Users/ndimiduk/repos/hbaseiatwitbase/

target/twitbase-1.0.0.jar

|HBaseIA.TwitBase.coprocessors.FollowsObserver|1001|'

Updatingall regions with the new schema...

1/1regions updated.

Done.

0 row(s) in 1.0770 seconds

hbase(main):003:0>enable 'follows'

0 row(s) in 2.0760 seconds

当中1001为优先级。当载入多个Observer时。依照优先级次序执行。

实现Endpoint

关注人数量统计能够通过clientScan实现，相比Endpoint方案。有两个待改进点：

传输全部关注人到client，不必要的网络I/O。
拿到全部关注人Result结果后。遍历实现计数是单线程的。

实现Endpoint包含三部分

定义PRC接口

publicinterface RelationCountProtocol extends CoprocessorProtocol {

    public long followedByCount(String userId) throwsIOException;

}

服务端实现

和client不同，InternalScanner执行在特定Region上。返回的是原始的KeyValue对象。

packageHBaseIA.TwitBase.coprocessors;

//…

publicclass RelationCountImpl extends BaseEndpointCoprocessor implementsRelationCountProtocol {

    @Override

    public longfollowedByCount(String userId) throws IOException {

        byte[]startkey = Md5Utils.md5sum(userId);

        Scan scan = newScan(startkey);

        scan.setFilter(newPrefixFilter(startkey));

        scan.addColumn(RELATION_FAM,FROM);

        scan.setMaxVersions(1);

        RegionCoprocessorEnvironmentenv= (RegionCoprocessorEnvironment)getEnvironment();

        InternalScanner scanner =env.getRegion().getScanner(scan);//1,server端

        long sum = 0;

        List<KeyValue> results= new ArrayList<KeyValue>();

        boolean hasMore = false;

        do {

            hasMore =scanner.next(results);

            sum += results.size();

            results.clear();

        } while (hasMore);

        scanner.close();

        return sum;

    }

}

client代码

參考凝视：

定义Call实例
调用服务端Endpoint。
聚合全部RegionServer得到的结果

public long followedByCount (final String userId) throws Throwable {

    HTableInterface followed =pool.getTable(FOLLOWED_TABLE_NAME);

    final byte[] startKey = Md5Utils.md5sum(userId);

    final byte[] endKey =Arrays.copyOf(startKey, startKey.length);

    endKey[endKey.length-1]++;

    Batch.Call<RelationCountProtocol,Long> callable =

        newBatch.Call<RelationCountProtocol, Long>() {

        @Override

        public Longcall(RelationCountProtocol instance) throws IOException {

            returninstance.followedByCount(userId);

        }

    };//1 call instance

    Map<byte[], Long>results = followed.coprocessorExec(

                                   RelationCountProtocol.class,

                                   startKey,

                                   endKey,

                                   callable);//2 invoke endpoint

    long sum = 0;

    for(Map.Entry<byte[],Long> e : results.entrySet()) {

        sum +=e.getValue().longValue();

    }//3 aggreagte results

    return sum;

}

Endpoint仅仅能通过配置文件部署，还须要将相关jar包增加到HBase classpath。

<property>

    <name>hbase.coprocessor.region.classes</name>

    <value>HBaseIA.TwitBase.coprocessors.RelationCountImpl</value>

</property>

读书笔记-HBase in Action-第二部分Advanced concepts-(2)Coprocessor的更多相关文章

读书笔记-HBase in Action-第二部分Advanced concepts-(1)HBase table design
本章以山寨版Twitter为例介绍HBase Schema设计模式.广义的HBase Schema设计不仅仅包含创建表时指定项,还应该综合考虑Column families/Column qualif ...
读书笔记-HBase in Action-第二部分Advanced concepts-(3)非Javaclient
HBase Shell HBase shell使用起来最方便,进入HBase shell控制台就可以使用. $ $HBASE_HOME/bin/hbase shell 常见操作有create(创建表) ...
读书笔记-HBase in Action-第一部分 HBase fundamentals
新项目准备上HBase.HBase眼下由组里某牛负责.本着学会使用HBase的目标,先阅读下HBase in Action,一共十章组织成三部分,须要学习的内容包含HBase基本实现原理,用法,Sch ...
unix 环境高级编程-读书笔记与习题解答-第二篇
第四节输入与输出上次的笔记中写到的 open, read, write, lseek 以及close ,都是不带缓存的IO函数,这些函数都使用文件描述符进行工作. 上一篇笔记用到的 read(ST ...
读书笔记-HBase in Action-第三部分应用-(1)OpenTSDB
OpenTSDB是基于HBase的开源监控系统,能够支持上万规模集群监控和上亿数据点採集. 当中TSDB代表Time Series Database,OpenTSDB在时间序列数据的存储和查询上都做了 ...
读书笔记-HBase in Action-第三部分应用-(2)GIS系统
本章介绍用HBase存储.高效查询地理位置信息. Geohash空间索引考虑LBS应用中常见的两个问题:1)查找离某地近期的k个地点.2)查找某区域内地点. 假设要用HBase实现高效查找,首先要考 ...
[读书笔记]算法(Sedgewick著)·第二章.初级排序算法
本章开始学习排序算法 1.初级排序算法先从选择排序和插入排序这两个简单的算法开始学习排序算法.选择排序就是依次找到当前数组中最小的元素,将其和第一个元素交换位置,直到整个数组有序. public s ...
《Linux内核》课本读书笔记第一章、第二章
Python基础教程读书笔记（2）第二章列表和元组
2.1序列概览列表和元组的主要区别在于,列表可以修改,元组则不能.也就是说如果要根据要求来添加元素,那么列表可能会更好用;而出于某些原因,序列不能修改的时候,使用元组则更为合适.使用后者的理由通常是 ...

随机推荐

C++ Win32控制台应用程序捕捉关闭事件
#include#includebool ctrlhandler( DWORD fdwctrltype ){ switch( fdwctrltype ) { // handle ...
java基础之导出(Excel)
function exportExcel() { $.messager .confirm( '提示信息', '您确定要导出到Excel?', function(r) { if (r) { var co ...
Calendar( 日历)
本节课重点了解 EasyUI 中 Canlendar(日历)组件的使用方法,这个组件不依赖于其他组件.一．加载方式//class 加载方式<div id="box" cla ...
网页、JavaScript 数据类型
JavaScript 数据类型一.基本数据类型: 字符串.数字.布尔.日期和时间 JavaScript 拥有动态类型 JavaScript 拥有动态类型.这意味着相同的变量可用作不同的类型: 1 v ...
OD: Memory Attach Technology - Exception
看到第六章了:形形色色的内存攻击技术异常处理结构体 S.E.H Structure Exception Handler S.E.H 是 Windows 处理异常的重要数据结构.每个 S.E.H 为 ...
C3P0连接池配置方式
c3p0的配置方式分为三种,分别是 1.setters一个个地设置各个配置项 2.类路径下提供一个c3p0.properties文件 3.类路径下提供一个c3p0-config.xml文件 1.set ...
iOS项目名称、版本号与屏幕分辨率
iOS的版本号,一个叫做Version,一个叫做Build,这两个值都可以在Xcode 中选中target,点击“Summary”后看到. Version在plist文件中的key是“CFBundle ...
eclipse安装ADT插件重启后不显示Android SDK Manager和Android Virtual Device Manager图标的一种解决办法
通常安装,搭建安卓环境后,不显示Android SDK Manager和Android Virtual Device Manager ize解决方法:Eclipse ->window->c ...
C++程序设计教程学习（1）-第一部分编程基础
第一章概述 C++到底难不难学?没有学不会的事情 1.1 程序设计语言语言编程语言人和计算机交流的工具,群体扩大,人人间交流过程描述与信息表达的工具机器语言,汇编语言,高级语言 1.2 C+ ...
前端优化：BigRender
前言有对象才叫跨年,没对象叫熬夜.所以,在这没对象的元旦假期的夜里捣弄了一下前端优化的东西.如果你听说过FaceBook,太好了,你肯定是个网络潮人:如果你还听说过FaceBook的bigpipe ...

读书笔记-HBase in Action-第二部分Advanced concepts-(2)Coprocessor