【HBase】rowkey、索引表设计

【【HBase】rowkey、索引表设计】的更多相关文章

HBase二级索引的设计(案例讲解)

摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级索引来解决这个问题查询需求多个查询条件构成多维度的组合查询,需要根据不同组合查询出符合查询条件的数据 HBase的局限性 HBase本身只提供基于行键和全表扫描的查询,而行键索引单一,对于多维度的…

HBase二级索引的设计

摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级索引来解决这个问题查询需求多个查询条件构成多维度的组合查询,需要根据不同组合查询出符合查询条件的数据 HBase的局限性 HBase本身只提供基于行键和全表扫描的查询,而行键索引单一,对于多维度的…

HBase之八--(1)：HBase二级索引的设计(案例讲解)

摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级索引来解决这个问题查询需求多个查询条件构成多维度的组合查询,需要根据不同组合查询出符合查询条件的数据 HBase的局限性 HBase本身只提供基于行键和全表扫描的查询,而行键索引单一,对于多维度的…

【HBase】rowkey、索引表设计

总订单数1亿条 ->订单id,用户id,商品id集合,订单时间,订单完成时间,订单状态: HBase表设计: 主表 -> Rowkey: 用户ID_时间戳列簇:info 索引表 -> https://www.2cto.com/database/201708/664664.html rowkey: 订单号列簇:info:index value=主表的rowkey 注意点用户id需要长度一致(索引表同理),如1要变换为"0000001". 那么rowkey为 000…

HBase RowKey与索引设计

1. HBase的存储形式 hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容. 其在region内大多以升序的形式排列,唯一的时logTime是以降序的形式进行排列. 所以,rowKey里越靠近左边的信息越容易被检索到.其设计时,要考虑把重要的信息放左边,不重要的信息放到右边.这样可以提高查询数据的速度.最重要的提高索引速度的就是设计合适的rowKey. 在做RowKey设计时,请先考虑业务是读比写多,还…

hbase rowkey 的设计

什么是rowkey Hbase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. Hbase是采用K,V存储的,那Rowkey就是KeyValue的Key了,Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义.数据加载时,一般也是根据Rowkey的二进制序由小到大进行的. HBase是根据Rowkey来进行检索的,系统通过找到某个Rowkey (或者某个 Rowkey 范围)所…

HBase学习——3.HBase表设计

1.建表高级属性建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用使用HColumnDescriptor.setBloomFilterType(NONE|ROW|ROWCOL)对列族单独启用布隆 - Default = ROW 对行进行布隆过滤 - 对 ROW,行键的哈希在每次插入行时将被添加到布隆 - 对 ROWCOL,行键 + 列族 + 列族修饰的哈希将在每次插入行时添加到布隆使用方法: crea…

Hbase rowkey设计+布隆过滤器+STORE FILE & HFILE结构

Rowkey设计 Rowkey设计原则 Rowkey设计应遵循以下原则: 1.Rowkey的唯一原则必须在设计上保证其唯一性.由于在HBase中数据存储是Key-Value形式,若HBase中同一表插入相同Rowkey,则原先的数据会被覆盖掉(如果表的version设置为1的话),所以务必保证Rowkey的唯一性 2. Rowkey的排序原则 HBase的Rowkey是按照ASCII有序设计的,我们在设计Rowkey时要充分利用这点.比如视频网站上对影片<泰坦尼克号>的弹幕信息,这个弹幕是按…

Hbase Rowkey设计

转自:http://www.bcmeng.com/hbase-rowkey/ 建立Schema Hbase 模式建立或更新可以通过 Hbase shell 工具或者使用Hbase Java API 中的 Admin类. 当列族发生变动时 hbase表必须处于 disabled 状态.例如: Configuration config = HBaseConfiguration.create(); Admin admin = new Admin(conf); String table = "myT…

3.4-3.6 依据业务需求分析HBase的表设计

一.依据[话单]查询需求分析HBase的表设计 1.分析用户需要进行实时的查询,那么这些数据是放在HBase当中的,每个客户每天接打电话至少20个左右,而通信公司拥有很多用户,每天产生的数据都是上亿条. 提取出需要的信息,主要包括以下几点:自己的号码:telphone拨打或接听时间:teltime区域:area主叫或被叫:active对方的号码:phone通话时长:talktime通话模式(国内或国外):mode费用:price 而大部分功能的查询条件分析如下:telphone +(start…

Hbase入门(四)——表结构设计-RowKey

Hbase的表结构设计与关系型数据库有很多不同,主要是Hbase有Rowkey和列族.timestamp这几个全新的概念,如何设计表结构就非常的重要. 创建 Hbase就是通过表 Rowkey 列族 timestamp确定一行数据. 这与关系型数据库完全不同: 属性 HBase RDBMS 数据类型只有字符串丰富的数据类型数据操作简单的增删改查不支持join 各种函数和表连接存储模式基于列式存储基于表格结构和行式存储数据保护更新后仍然保留旧版本替换可伸缩性轻易的增加节…

分布式数据库HBase表设计

比较常用的数据库是关系型数据库,但很多场景下nosql数据库会更加擅长,从sql到nosql实施的第一步就是设计表结构,这是两种不同的思维方式,这里说下HBase表设计. 需求:需要一张stock表用于保存市场所有股票的分钟走向,即每个股票每分钟记录一次价格. 方案一:瘦表. 用stockId+datetime作为RowKey,这样方便通过stockId或datetime快速扫描获取到相关记录. RowKey ColumnFamily "stock_cf" stockId+dateti…

HBase Rowkey 设计指南

为什么Rowkey这么重要 RowKey 到底是什么我们常说看一张 HBase 表设计的好不好,就看它的 RowKey 设计的好不好.可见 RowKey 在 HBase 中的地位.那么 RowKey 到底是什么?RowKey 的特点如下: 类似于 MySQL.Oracle中的主键,用于标示唯一的行: 完全是由用户指定的一串不重复的字符串: HBase 中的数据永远是根据 Rowkey 的字典排序来排序的. RowKey的作用读写数据时通过 RowKey 找到对应的 Region: MemSt…

【Hbase学习之四】Hbase表设计案例

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-2.6.5 hbase-0.98.12.1-hadoop2 HBase中表的设计主要是将原来的关系解开问题: 例子: 表设计一: 表设计二: 这是一个双向查询,根据人员查角色,根据角色查人员问题: 0为顶级部门,1为子部门放到一张表中不会对效率产生影响,因为HBASE是海量存储,海量读写的. Redis是一个内存数据库,新浪微博是使用R…

HBase Rowkey的散列与预分区设计

转自:http://www.cnblogs.com/bdifn/p/3801737.html 问题导读:1.如何防止热点?2.如何预分区?扩展:为什么会产生热点存储? HBase中,表会被划分为1...n个Region,被托管在RegionServer中.Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据.简单地说…

HBase概念学习（八）开发一个类twitter系统之表设计

这边文章先将可能的需求分析一下,设计出HBase表,下一步再開始编写client代码. TwiBase系统 1.背景为了加深HBase基本概念的学习,參考HBase实战这本书实际动手做了这个样例. 2.需求这是一个用户推特系统,用户登陆到系统.须要维护用户的基本信息.然后用户能够发帖和其它用户进行互动.用户之间能够相互关注.用户能够浏览关注用户的推文等等. 这是一个比較简单的推特系统.不考虑用户之间的私信,用户评论推特等功能. 3.概要设计 3.1表设计首先须要设计三个表:用户表.推特表以…

hbase rowkey 设计

HBase中的rowkey是按字典顺序排序的,通过rowkey查询可以对千万级的数据实现毫秒级响应.然而,如果rowkey设计不合理的话经常会出现一个很普遍的问题----热点.当大量client的请求(读或者写)只指向集群的一个节点,或者很少量的几个节点时,也就代表产生了热点问题. 避免产生热点的方式也就是尽可能的将rowkey均匀分散到所有的region上,下面介绍了几种rowkey设计常用的方式: 第一:加盐(salting) 加盐是指在rowkey的前缀添加随机数据,使rowkey尽可能的…

HBase，以及GeoMesa设计基于HBase的设计分析，从数据模型到典型查询场景，最后进行RowKey设计

GeoMesa设计基于HBase的设计分析,从数据模型到典型查询场景,最后进行RowKey设计一.HBase 基本概念理解KeyValue KeyValue多版本列定义(1) 列定义(2) Column Family RowKey即索引 RowKey字段的选取二.GeoMesa设计基于HBase的设计分析,从数据模型到典型查询场景,最后进行RowKey设计数据模型 GeoMesa-典型查询场景 GeoMesa-RowKey设计一.HBase 基本概念理解KeyValue KeyVa…

大数据学习（17）—— HBase表设计

为啥要把表设计拿出来独立成章?因为我觉得像我这样搞了很多年Java后端开发的技术人员,在学习HBase的时候,会受到关系型数据库3NF.BCNF的影响.事实上,数据库范式在HBase里完全没用,必须转变思想.因此把这一点单独写出来,供类似情况的技术人员参考. HBase逻辑视图这个图看起来像是Excel表格,不同的是,它的一个单元格可以有多个版本的数据,这是HBase的多版本特性,默认版本数是1.实际存储格式是每个单元格一行记录,如下图. hbase(main):003:0> scan 'te…

理解Hbase RowKey的字典排序；HBase Rowkey的散列与预分区设计

HBase是三维有序存储的,是指rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度是依照ASCII码表排序的. HBase中,表会被划分为1...n个Region,被托管在RegionServer中.Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且…

数据库表设计时一对一关系存在的必要性数据库一对一、一对多、多对多设计面试逻辑题3.31 sql server 查询某个表被哪些存储过程调用 DataTable根据字段去重 .Net Core Cors中间件解析分析MySQL中哪些情况下数据库索引会失效

数据库表设计时一对一关系存在的必要性 2017年07月24日 10:01:07 阅读数:694 在表设计过程中,我无意中觉得一对一关系觉得好没道理,直接放到一张表中不就可以了吗?真是说,网上信息什么都有,也可以说与我一样困惑的有好多人.感谢大神在网上的活跃,我知道了一对一关系存在的必要性. 1.首先就是这种关系出现的场景是什么样子,最好可以举个实际中的需求. 这样的场景有很多,比如:就拿最普通的用户信息来说,数据库中有一个表为user,一个表为user_auth.user表主要存放的字段为用户基…

MySql数据表设计，索引优化，SQL优化，其他数据库

MySql数据表设计,索引优化,SQL优化,其他数据库 1.数据表设计 1.1数据类型 1.2避免空值 1.3text类型优化 2.索引优化 2.1索引分类 2.2索引优化 3.SQL优化 3.1分批处理 3.2操作符<>优化 3.3OR优化 3.4IN优化 3.5不做列运算 3.6避免Select all 3.7Like优化 3.8Join优化 3.9Limit优化 4.其他数据库原文微信公众号:芋道源码原文地址:如何去写一手好SQL? 1.数据表设计 1.1数据类型数据类型的选择原则…

Hbase：原理和设计

转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者. 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据.实现数据分布式存储提供可靠的方案.从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle.MySQL.MSSQL等一样,对外提供数据的存储和读取服务.而从应用的角度来说,HB…

HBase二级索引方案总结

转自:http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html 附hbase如何创建二级索引以及创建二级索引实例:http://www.aboutyun.com/thread-8857-1-1.html 华为二级索引(原理):http://my.oschina.net/u/923508/blog/413129 在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局…

HBase概念及表格设计

HBase概念及表格设计 1. 概述(扯淡~) HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后,犹如醍醐灌顶,进而“山寨”出来的一套系统. 由此可见: 1. 几乎所有的HBase中的理念,都可以从BigTable论文中得到解释.原文是英语的,而且还有不少数学概念,看了有点儿懵,建议网上找找学习笔记看看,差不多也就可以入门了. 2. Google确实牛X. 3. 老外也爱山寨~ 第一次看HBase, 可能看到以下描述会懵:“基于列存储”,“稀疏MAP”,“RowK…

HBase的索引

LSM树由来.设计思想以及应用到HBase的索引讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来: 哈希存储引擎是哈希表的持久化实现,支持增.删.改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统.对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.Right B树存储引擎是B树(关于B树的由来,数据结构以及应用场景可以看之前一篇博文)的持久化…

hbase建索引的两种方式

转载自http://blog.csdn.net/ryantotti/article/details/13295325 在二级索引的实现技术上一般有几个方案: 1. 表索引使用单独的hbase表存储索引数据,业务表的索引列值做为索引表的rowkey,业务表的rowkey做为索引表的qualifier或value. 问题:对数据更新性能影响较大:无法保证一致性:Client查询需要2次RPC(先索引表再数据表). 2. 列索引与业务表使用相同表,使用单独列族存储索引,用户数据…

HBase 二级索引与Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案. 这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍. 理论目标在HBase中实现二级索引与索引Join需要考虑三个目标: 1,高性能的范围检索. 2,数据的低冗余(…

HBase二级索引与Join

转自:http://www.oschina.net/question/12_32573 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案.这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook和官方Coprocessor方案的介绍. 理论目标在HBase中实现…

HBase 二级索引与Coprocessor协处理器

Coprocessor简介 (1)实现目的 HBase无法轻易建立“二级索引”: 执行求和.计数.排序等操作比较困难,必须通过MapReduce/Spark实现,对于简单的统计或聚合计算时,可能会因为网络与IO开销大而带来性能问题. (2)灵感来源灵感来源于Bigtable的协处理器,包含如下特性: 每个表服务器的任意子表都可以运行代码: 客户端能够直接访问数据表的行,多行读写会自动分片成多个并行的RPC调用. (3)提供接口 RegionObserver:提供客户端的数据操…