hbase实践之协处理器Coprocessor】的更多相关文章

HBase客户端查询存在的问题 Scan 用Get/Scan查询数据, Filter 用Filter查询特定数据 以上情况只适合几千行数据以及不是很多的列的"小数据". 当表扩展为亿万行及百万列时,在通过网络传递移动大量的数据导致网络拥堵,且客户端需要足够多内存来处理这么大量数据的计算操作,另外,客户端代码也会变的大而复杂. 解决方案 移动计算比移动数据更划算 Coprocessor将运算移动到数据所处的节点. 什么是Coprocessor? 简单来说,Coprocessor是一个框架…
Hadoop生态圈-Hbase的协处理器(coprocessor)应用 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.…
Coprocessor简介 (1)实现目的 HBase无法轻易建立“二级索引”: 执行求和.计数.排序等操作比较困难,必须通过MapReduce/Spark实现,对于简单的统计或聚合计算时,可能会因为网络与IO开销大而带来性能问题. (2)灵感来源          灵感来源于Bigtable的协处理器,包含如下特性: 每个表服务器的任意子表都可以运行代码: 客户端能够直接访问数据表的行,多行读写会自动分片成多个并行的RPC调用. (3)提供接口 RegionObserver:提供客户端的数据操…
Hadoop生态圈-注册并加载协处理器(coprocessor)的三种方式 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 到目前为止,大家已经掌握了如何使用过滤器来减少服务器端通过网络返回到客户端的数据量.HBase中还有一些特性让用户甚至可以把一部分计算也移动到数据的存放端,他就是本篇博客的主角:协处理器(coprocessor). 一.协处理器简介 使用客户端API,配合筛选机制,例如,使用过滤器或限制列族的范围,都可以控制被返回到客户端的数据量.如果可以更进一步优化会更…
介绍 coprocessor这个单词看起来很神秘,直译为协处理器,其实可以理解成依赖于regionserver进程的辅助处理接口. hbae在0.92版本之后提供了coprocessor接口.目前hbase支持两种coprocessor,endpoint和observer.hbase在未来版本可能考虑将coprocessor进程独立出来,单独起个服务. endpoint coprocessor Endpoint 协处理器类似传统数据库中的存储过程,客户端可以调用这些 Endpoint 协处理器执…
1.环境 Mysql 5.6 Sqoop 1.4.6 Hadoop 2.5.2 HBase 0.98 Elasticsearch 2.3.5 2.安装(略过) 3.HBase Coprocessor实现 HBase Observer import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.hadoop.conf.Configuration; imp…
项目背景 本项目为车联网监控系统,系统由车载硬件设备.云服务端构成.车载硬件设备会定时采集车辆的各种状态信息,并通过移动网络上传到服务器端.服务器端接收到硬件设备发送的数据首先需要将数据进行解析,校验,随后会将该消息转发到国家汽车监测平台和地方汽车监测平台,最后将解析后的明文数据和原始报文数据存储到系统中.车辆的数据和其他数据需要通过web页面或rest API接口进行查询访问.要求半年内的数据查询响应时间在毫秒级别内,超过半年的数据需要放到更加低成本的介质上,查询延迟在3s以内,这些数据的查询…
笔者从一开始接触hbase就在思考rowkey设计,希望rowkey设计得好,能够支持查询的需求.使用hbase一段时间后,再去总结一些hbase的设计方法,无外乎以下几种: reverse salt hash 本质上都是避免热点问题.那么如何根据查询场景设计rowkey?rowkey设计之道是什么? rowkey设计之道 hbase通过分治策略将数据分散到1-N个Region中,以满足业务的读写需求,合理的分配是关键,这就涉及rowkey的设计. 抛开缓存,只从rowke的角度来考虑读写,如果…
rowkey设计的重要性 rowkeys是HBase表设计中唯一重要的一点. rowkey设计要求 唯一性 存储特性 按照字典顺序排序存储 查询特性 由于其存储特性导致查询特性: 查询单个记录: 查定一定范围的记录. 可能存在的问题 热点问题 什么是热点和数据倾斜 热点发生在大量的client直接访问集群的一个或极少数个节点(访问可能是读,写或者其他操作).大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个RegionServer上的…
用户模型简介 知乎 AI 用户模型服务于知乎两亿多用户,主要为首页.推荐.广告.知识服务.想法.关注页等业务场景提供数据和服务, 例如首页个性化 Feed 的召回和排序.相关回答等用到的用户长期兴趣特征,问题路由.回答排序中用到的 TPR「作者创作权威度」,广告定向投放用到的基础属性等. 主要功能 提供的数据和功能主要有: 用户兴趣:长期兴趣.实时兴趣.分类兴趣.话题兴趣.keyword 兴趣.作者创作权威度等, 用户 Embedding 表示:最近邻用户.人群划分.特定用户圈定等, 用户社交属…