七 HBase表结构设计

表结构设计之高表与宽表选择

HBase 中的表可以设计为高表（tall-narrow table）和宽表（flat-wide table）。

高表：列少而行多。

宽表：行少而列多。

根据之前介绍的 KeyValue 信息的筛选粒度信息，用户应当尽量将需要查询的维度或信息存储在行键中，因为他的筛选数据的效率最高。此外，HBase只能按行分片，因此高表更有优势。设想用户将一个电子邮件都存储在一行中。这在大部分情况下都是合适的，但是也有人的收件箱中有大量的邮件。大到一行数据就超过了最大 HFile 的限制，此时这个 HFile 无法拆分，同时也导致 region无法再合适的位置进行拆分。解决此问题的最好办法是把一个用户的每个电子邮件都存在单独的一行中，而行键可以是用户 userId 和消息 mesageId 的组合。

邮件系统。用 userid + messageId（uuid）因为 HBase 的行级原子性可以根据用户是否批量修改 VALUE 内容

如果一个首检想中的数据现在分布在多行中，所以高表不可能在一次简单的操作中修改一个收件箱的全局属性，如果用户不需要一次修改整个收件箱中所有邮件的消息，高表设计就非常合适。如果用户有这种修改全局的需求，宽表将更加适合。因为HBase 能保证数据操作的行级原子性。

表结构设计之 数据块大小选择( 65535 )

数据块小—索引大—占用更大的内存。（同时加载进内存的数据块越小，随机查找性能就更好）

相反如果需要更好的序列扫描性能，那么一次性加载更多的HFile数据进入内存更为合理。这意味着应该讲数据块设置为更大的值。相应的，索引变小，将在随机读性能上付出更多的代价。

HFile 数据块大小可以在列族层次设置。这个数据块不同于之前谈到的HDFS数据块，默认值是65535字节，或65KB。数据块索引存储每个HFile数据块的起始键。数据块大小的设置影响数据块索引的大小。

hbase（main）：> create 'mytable',{NAME => 'colfaml',BLOCKSIZE => '65535'}

表结构设计之 数据块缓存 ( OPEN )

把数据放入缓存，并不是一定能够提升性能。如果一个表的列族只被顺序化扫描访问或很少被访问，则get scan操作花费时间长是可以接受的。这种情况下可以选择关闭列族的缓存。

如果执行多次顺序化扫描（多次使用缓存）并且可能会滥用魂村，从而把应该放进缓存获得性能提升的数据给排挤出去。如果关闭缓存，可以避免上述情况，而且可以让出更多缓存给其他表和同一表的其他列族使用。

数据块缓存默认是打开的。可以新建或更改表时关闭数据块缓存属性：

hbase(main):> create 'mytable', {NAME => 'colfam1', BLOCKCACHE => 'false' }

IN_MEMORY 参数的默认值是 false ，该值表示 HBase 除了在数据块缓存中保存这个列族相比其他列族更激进之外，并不提供其他额外保证。该参数在实际应用中设置为 true，此时访问性能不会变化太大。设置IN_MEMORY：

hbase(main):> create 'mytable', {NAME => 'colfam1', IN_MEMORY => 'true'}

表结构设计之 布隆过滤器（NONE）

布隆过滤器可以应用在块上，检查行键，也可以应用在行内的单元格上，当访问某列表示服时先使用同样的反向检测

布隆过滤器允许对存储在每个数据块的数据做一个反向检测。查询行时，先查询布隆过滤器。（Bloom Filter）。看看该行是否不存在这个数据块，要么返回该行不存在。要么返回不知道。

如果想要判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表，树等等数据结构都是这种思路. 但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢(O(n),O(logn))。不过世界上还有一种叫作散列表（又叫哈希表，Hash table）的数据结构。它可以通过一个Hash函数将一个元素映射成一个位阵列（Bit array）中的一个点。这样一来，我们只要看看这个点是不是1就可以知道集合中有没有它了。这就是布隆过滤器的基本思想。

Hash面临的问题就是冲突。假设Hash函数是良好的，如果我们的位阵列长度为m个点，那么如果我们想将冲突率降低到例如 1%, 这个散列表就只能容纳m / 100个元素。显然这就不叫空间效率了（Space-efficient）了。解决方法也简单，就是使用多个Hash，如果它们有一个说元素不在集合中，那肯定就不在。如果它们都说在，虽然也有一定可能性它们在说谎，不过直觉上判断这种事情的概率是比较低的。

存储这个额外的索引层需要占用额外的空间，占用的大小随着索引对象数据增长而增长。所以行级布隆过滤器比列标识符级布隆过滤器占用空间要小。当空间不是问题时，他们可以压榨整个系统的性能潜力

可以在列族上打布隆过滤器，代码：

hbase(main) > create 'mytable' , {NAME=>'colfam1', BLOOMFILTER => 'ROWCOL' }

NONE 布隆过滤器默认参数。

ROW 表示行级布隆过滤器（检查rowkey存不存在）；

ROWCOL表示列标识符级布隆过滤器（检查 rowkey 和列限定符存不存在）。

· 为什么用布隆过滤器。以及数据未被刷入HFile时在MemStore中。

表结构设计之 数据压缩（NONE）

数据压缩有助于节省磁盘空间，但是读写数据时压缩和解压缩会提高CPU使用率。除非确定压缩不会提升系统的性能，否则推荐打开表的压缩。

只有在数据不能被压缩，或者因为某些原因服务器的 CPU 利用率有限制的情况下，有可能需要关闭压缩特性。

HBase使用的压缩编码： SNAPPY拥有 BSD（BSD-licensed）许可，所以它更容易和 Hadoop 及 HBase 发行版捆绑在一起。 LZO 和 SNAPPY 的压缩比例和压缩 / 解压速度差不多。

创建表时可以在列族上打开压缩：

hbase（main）> create 'mytable' , {NAME => 'colfaml' , COMPRESSION => 'SNAPPY'}

数据只在硬盘上是压缩的，在内存中（MemStore 或 BlockCache）或在网络传输时是没有压缩的。

数据的压缩编码不能经常改变，如果需要改变某个列族的压缩编码，直接更改表定义，设定新的压缩编码，当Region合并时，生成的 HFile 全部会采用新的编码压缩。这个过程不需要创建新的表和复制数据。

表结构设计之 单元时间版本( 3 Version ) .生存空间（Time To Live） TTL默认68年值

如果只需要一个版本，在创建表时可以直接将 VERSION 的参数设置为1。时间版本也是列族级的。

hbase(main) > create 'mytable' , { NAME => 'colfaml', VERSION => 1}

可以在同一个建表语句中为列族设置版本和生命周期

hbase(main) > create 'mytable' , { NAME => 'colfaml' , VERSION => 1, TTL => '18000'} // TTL 值默认是永久保存，（2147483647）单位是秒。此数校验为 68 年

可以指定列族存储的最少时间版本数。

hbase(main) > create 'mytable' , { NAME => 'colfaml' , VERSION => 5, MIN_VERSION => '1' }

TTL 生存时间，用于设置单元格的生存周期。如果单元格过期，则会将其删除。

早于指定时间的数据会在下一次大合并时将其删除。

God has given me a gift. Only one. I am the most complete fighter in the world. My whole life, I have trained. I must prove I am worthy of someting. rocky_24

来自为知笔记(Wiz)

七 HBase表结构设计的更多相关文章

HBase表结构设计--练习篇
一.表结构操作 1.建立一个表scores,有两个列族grad和course [hadoop@weekend01 ~]$ hbase shell hbase(main):006:0> creat ...
hbase表结构设计
非常好的一个ppt HBase Schema design: http://www.slideshare.net/cloudera/5-h-base-schemahbasecon2012
Hbase入门(四)——表结构设计-RowKey
Hbase的表结构设计与关系型数据库有很多不同,主要是Hbase有Rowkey和列族.timestamp这几个全新的概念,如何设计表结构就非常的重要. 创建 Hbase就是通过表 Rowkey 列族 ...
HBase(八): 表结构设计优化
在 HBase(六): HBase体系结构剖析(上) 介绍过,Hbase创建表时,只需指定表名和至少一个列族,基于HBase表结构的设计优化主要是基于列族级别的属性配置,如下图: 目录: BLOOMF ...
MySQL基于左右值编码的树形数据库表结构设计
MySQL基于左右值编码的树形数据库表结构设计在关系型数据库中设计树形的数据结构一直是一个十分考验开发者能力的,最常用的方案有主从表方案和继承关系(parent_id)方案.主从表方案的最大缺点 ...
mysql 用户表结构设计，第三方登录
说起用户表,大概是每个应用/网站立项动工(码农们)考虑的第一件事情.用户表结构的设计,算是整个后台架构的基石.如果基石不稳,待到后面需求跟进了发现不能应付,回过头来反复修改用户表,要大大小小作改动的地 ...
数据库表结构设计方法及原则（li）
数据库设计的三大范式:为了建立冗余较小.结构合理的数据库,设计数据库时必须遵循一定的规则.在关系型数据库中这种规则就称为范式.范式是符合某一种设计要求的总结.要想设计一个结构合理的关系型数据库,必须满 ...
数据分页处理系列之二：HBase表数据分页处理
HBase是Hadoop大数据生态技术圈中的一项关键技术,是一种用于分布式存储大数据的列式数据库,关于HBase更加详细的介绍和技术细节,朋友们可以在网络上进行搜寻,笔者本人在接下来的日子里也会写 ...
Laravel教程七：表单验证 Validation
Laravel教程七:表单验证 Validation 此文章为原创文章,未经同意,禁止转载. Laravel Form 终于要更新这个Laravel系列教程的第七篇了,期间去写了一点其他的东西. 就 ...

随机推荐

springmvc两种非注解的处理器适配器
<?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http:// ...
路飞学城Python-Day7（practise）
# 1.编码问题# i.请说明python2与python3中的默认编码是什么?# python2中的默认编码是ASCII码,只能识别英文等其他字符# python3中的默认编码是utf-8# ii. ...
HDU-1083 Courses 二分图最大匹配
题目链接:https://cn.vjudge.net/problem/HDU-1083 题意有一些学生,有一些课程给出哪些学生可以学哪些课程,每个学生可以选多课,但只能做一个课程的代表问所有课能 ...
Docker学习总结（9）——Docker常用命令
容器生命周期管理 - docker [run|start|stop|restart|kill|rm|pause|unpause] 容器操作运维 - docker [ps|inspect|top|att ...
Node.js使用cnpm
npm是Node.js中维护第三方库.模块的工具,可是国外的速度非常悲剧,这里有一个中国的源cnpm. http://cnpmjs.org/ 须要在命令行中执行 npm install -g cnpm ...
Hadoop入门进阶步步高（二）-文件夹介绍
二.Hadoop文件夹结构这里重点介绍几个文件夹bin.conf及lib文件夹. 1.$HADOOP_HOME/bin文件夹文件名说明 hadoop 用于运行hadoop脚本命令,被hadoop ...
Linux安装PHP和MySQL
Linux上安装php运行环境稍微比Windows复杂,没有Windows那么方便的集成环境.技术在于折腾嘛 Linux 版本的可以参考之前发布的Linux安装PHP MongoDB扩展安装环境系 ...
zookeeper图形界面工具zooinspector
链接: https://pan.baidu.com/s/1rabrwuC 密码: trwa zooinspector下载地址解压后进入
Java基础学习（三） -- OOP的三大特征、向上和向下转型、内部类之详解
面向对象编程(OOP)的三大特征什么是封装? (1) 把对象的状态和行为看成一个统一的整体,将二者存放在一个独立的类中; (2) "信息隐藏", 把不需要让外界知道的信息隐藏起来 ...
T_SQL 日期函数
日期函数基数表达式的日期和时间或者是从时间间隔中返回值. GETDATE(),返回当前系统的日期和时间.例: SELECT GETDATE(); 结果为:2010-05-18 15:53:08.92 ...

七 HBase表结构设计

七 HBase表结构设计的更多相关文章

随机推荐

热门专题