HBase官方文档 之 Region的相关知识
HBase是以Region为最小的存储和负载单元(这里可不是HDFS的存储单元),因此Region的负载管理,关系到了数据读写的性能。先抛开Region如何切分不说,看看Region是如何分配到各个RegionServer的吧。
更多内容参考——我的大数据学习之路
Region在HBase中的角色
Table (HBase表)
Region (Region)
Store (每个Region的每个列族独立存储)
MemStore (MemStore每个Store有一个,用于在内存中保存数据)
StoreFile (StoreFiles对应于Store,是具体存储在磁盘的文件)
Block (Blocks是HDFS上的存储单元)
Region的管理
一般来说对于每个Region Server,官方推荐最好是控制Region的数量在20-200个、大小在5-20Gb左右。
为什么要控制region的数量呢?
- 默认MemStore需要2MB的空间用来存储数据,如果一台机器上有1000个Region,每个有两个列族,那就需要3.9GB的数据。
- 如果同时以某个相同的频率更新所有的Region,当同时进行数据持久化的时候也会有问题
- Master对于维护大量的Region有很大的性能问题,因为在平衡Region的时候,在ZK中的操作都是同步的。
- Region Server需要维护Region的索引信息
那么Region Server是如何管理Region的呢?
启动
- Master创建AssignmentManager
- AssignmentManager查看当前的Region分配信息
- 满足条件后,通过LoadBalancerFactory创建LoadBalancer,1.0后的版本默认是StochasticLoadBalancer
- 判断是否需要进行负载平衡,并更新相关信息
容错
- 如果平衡负载的时候报错,RegionServer会直接关闭
- Master检测到resgion Server异常
- 重启Region server
- 请求进行重试;超时会请求其他的节点
Region的状态机
Hbase中每个Region自己维护其在hbase:meta表中的信息。
状态机中包括下面几种状态:
- offline:region离线没有开启
- opening:region正在被打开
- open:region正在打开,并且region server通知了master
- failed_open:regionserver打开失败
- closing:region正在被关闭
- closed:regionserver正在关闭,并且已经通知了master
- failed_close:regionserver关闭失败了
- splitting:region server通知master,region正在被切分
- split:region server通知master,region已经被切分完了
- spliting_new:region是切分过程中新建的文件
- merging:regionserver通知master region正在合并
- merged:regionserver通知master region合并完了
- merging_new:region是合并新建出来的
不同的颜色是不同含义:
- 棕色:离线状态,属于一种短暂的瞬间状态(比如关闭后开启的中间状态)、停止状态或者初始化的时候的状态
- 绿色:正常的状态,可以支持请求访问
- 蓝色:短暂的状态
- 红色:失败
- 黄色:合并或者切分的状态
- 灰色:刚开始的状态
各个序号代表不同的操作场景:
- Master向region server发起region从offline到openning的状态请求,regionserver如果没有收到,master会尝试重试几次。RegionServer接收到请求后,regin状态变成opening
- 如果Master发起的open请求超过次数,那么无论region server是否已经打开region,master都会命令region server关闭文件,状态变为closing
- 当region server打开region后,会尝试通知master,让他把region状态修改为open,并通知regsion server。这样region才能变为open状态
- 如果region server打开四百,会尝试通知master。master会把region的状态变更为closed,并且尝试去其他的region server打开region
- 如果master尝试几次后,都没有打开region,就会把状态变更为failed_open
- master通知region server关闭region,如果没有反应,会重试
- 如果region server没有在线,会抛出异常。然后region的状态会变成closing
- 如果region server在线,但是好几次都没响应,就会更新状态为failed_close
- 如果region server收到请求,并且关闭了region,那么会通知master把region状态修改为closed。并且把region分配给其他的server
- 在分配之前,master会先把region从closed状态转换为offline
- 如果region server正在切分region,会通知mastere。master把region状态由open变为splitting,并且把新增两个region的信息,这两个region都是splitting_new状态
- 如果region切分成功,当前的region状态从splitting变成split;新增的两个region状态从splitting_new变成open
- 如果切分失败,状态从splitting回到open,两个region也从splitting_new变成offline
- 如果region server想要合并两个region,那么也会先通知master。master把两个region从open变成merging,然后增加一个新的region,状态为merging_new
- 如果合并成功, 旧的region从merging变为merged,新的region从merging_new变为open
- 如果合并失败,region的状态从merging变回open,新建的一个region状态又变成offline
- 如果管理员通过hbase shell操作分配region,master会尝试把失败的状态变成close
Region的数据本地性
数据本地性通过来自于hdfs client和hdfs block存储的节点差异性,针对数据备份来说,会按照下面的机制进行:
- 第一个备份会优先卸载本地node节点上
- 第二个备份会随机选择一个不同的机架
- 第三个备份会在第二个备份所在的机架上,再随机选择一个节点
- 如果还有其他的备份节点,就在集群中随机选择了。
这样Hbase在刷新或者压缩时,可以体现数据的本地性。如果一个region server出现故障,那么就没有数据本地性可言了,因为它的备份都在其他的节点上。
Region的切分
HBase会配置一个切分的阈值,当到达阈值后,就会执行region的切分。Master不会参与Region的切分,切分由Region Server独立完成。执行切分的时候,会先把region下线,然后在meta表中增加子region的信息,最后通知给master。
默认使用的切分策略是IncreasingToUpperBoundRegionSplitPolicy(1.2.0版本),通过修改配置可以切换切分规则:
<property>
<name>hbase.regionserver.region.split.policy</name>
<value>org.apache.hadoop.hbase.regionserver.IncreasingToUpperBoundRegionSplitPolicy</value>
</property>
也可以通过Admin API指定规则:
HTableDescriptor tableDesc = new HTableDescriptor("test");
tableDesc.setValue(HTableDescriptor.SPLIT_POLICY, ConstantSizeRegionSplitPolicy.class.getName());
tableDesc.addFamily(new HColumnDescriptor(Bytes.toBytes("cf1")));
admin.createTable(tableDesc);
或者通过HBase shell管理:
hbase> create 'test', {METHOD => 'table_att', CONFIG => {'SPLIT_POLICY' => 'org.apache.hadoop.hbase.regionserver.ConstantSizeRegionSplitPolicy'}},
{NAME => 'cf1'}
也可以通过HBaseConfiguration来配置:
HTableDescriptor myHtd = ...;
myHtd.setValue(HTableDescriptor.SPLIT_POLICY, MyCustomSplitPolicy.class.getName());
Region的手动切分
Region的切分可以在表创建的时候来执行,也可已在后期来做。最好是在设计表结构的时候,就把切分的规则考虑进去。因为:
- 如果你的数据rowkey是随着时间自增长的,那么所有的新数据都会写在最后一个Region中,这样会导致总是最后一个region是热点,而其他的所有region基本都闲置了。
- 有的时候是一些意外的情况导致的热点问题,比如table中存储的是每个网页对应的点击日志,如果一个网页很受欢迎,那么它对应的region将会成为热点。
- 当集群的region很多的时候,想要加快加载数据的速度
- 在批量导入的时候,可能会造成region热点写
设计切分点
默认HBase都是基于Rowkey的字符进行切分的。如果rowkey是通过数字开头,那么会按照数字的范围进行切分;如果是字母,则会通过它的ASCII码进行切分。用户也可以自定义切分的算法,比如HexStringSplit通过转换成十六进制进行切分。
Region的合并
Master和RegionServer都会参与Region的合并。一般是Client发送合并的请求到Master,然后Master把需要合并的region移动到需要移动比例最高的那个Regsion Server上。比如现在有ABC3个Region Server,A有2个Region,B和C都只有一个,那么会把Region都转移到A Server,再执行合并操作。跟切分的过程一样,也需要先将region设置离线,然后执行合并,再去更新meta表信息。
下面是Hbase shell中合并的例子:
$ hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME'
$ hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true
合并操作是异步操作,发送请求后,客户端这边不需要登到合并结束。
第三个参数,表示是否强制合并。因为默认合并操作只能针对相邻的region,force参数可以强制跨Region的合并。
HBase官方文档 之 Region的相关知识的更多相关文章
- hbase官方文档(转)
FROM:http://www.just4e.com/hbase.html Apache HBase™ 参考指南 HBase 官方文档中文版 Copyright © 2012 Apache Soft ...
- HBase官方文档
HBase官方文档 目录 序 1. 入门 1.1. 介绍 1.2. 快速开始 2. Apache HBase (TM)配置 2.1. 基础条件 2.2. HBase 运行模式: 独立和分布式 2.3. ...
- HBase 官方文档
HBase 官方文档 Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译) Revision History Revision ...
- HBase 官方文档0.90.4
HBase 官方文档0.90.4 Copyright © 2010 Apache Software Foundation, 盛大游戏-数据仓库团队-颜开(译) Revision History Rev ...
- hBase官方文档以及HBase基础操作封装类
HBase 官方文档 0.97 http://abloz.com/hbase/book.html HBase基本操作封装类(以课堂爬虫为例) package cn.crxy.spider.utils; ...
- HBase 官方文档中文版
地址链接: http://abloz.com/hbase/book.html 里面包含基本的API和使用说明
- Android 线性布局(LinearLayout)相关官方文档 - 指南部分
Android 线性布局(LinearLayout)相关官方文档 - 指南部分 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用 ...
- Android 线性布局(LinearLayout)相关官方文档 - 布局參数部分
Android 线性布局(LinearLayout)相关官方文档 - 布局參数部分 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商 ...
- Spark官方文档 - 中文翻译
Spark官方文档 - 中文翻译 Spark版本:1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 引入Spark(Linki ...
随机推荐
- 关于nginx报错/usr/share/nginx/html/jiankongshare" failed (2: No such file or directory)的问题解决
nginx的location虚拟目录配置: monitor.conf server { server_name monitor.chinasoft.com; server_ ...
- Android:Camera
Android Camera开发 Android手机关于Camera的使用,一是拍照,二是摄像,由于Android提供了强大的组件功能,为此对于在Android手机系统上进行Camera的开发,我们可 ...
- 各浏览器下使用 OBJECT 元素和 EMBED 元素嵌入 Flash 存在差异
标准参考 OBJECT 元素定义了一个嵌入的对象.其引入的初衷是取代 IMG 和 APPLET 元素.不过由于安全等各方面原因以及缺乏浏览器支持,这一初衷并未实现.浏览器的对象支持依赖于对象类型.然而 ...
- python中的zip、map、reduce 、lambda函数的使用。
lambda只是一个表达式,函数体比def简单很多. lambda的主体是一个表达式,而不是一个代码块.仅仅能在lambda表达式中封装有限的逻辑进去. lambda表达式是起到一个函数速写的作用.允 ...
- 测试开发之前端——No8.HTML5中的媒介事件
媒介事件 由视频.图像以及音频等媒介触发的事件. 适用于所有 HTML 5 元素,不过在媒介元素(诸如 audio.embed.img.object 以及 video)中最常用: 属性 值 描述 on ...
- windows10+mysql8.0.11zip安装
准备: MySQL8.0 Windows zip包下载地址:https://cdn.mysql.com//Downloads/MySQL-8.0/mysql-8.0.11-winx64.zip 环境: ...
- String中的toCharArray:将此字符串转换为新的字符数组,并统计次数
package stringyiwen; public class StringTestToCharArray { public static void main(String[] args) { S ...
- hdu 1258 从n个数中找和为t的组合 (DFS)
题意:首先给你一个t,然后是n,后面输入n个数,然后让你求的是n个数中和为t的序列总共有多少种,把他们按从左到右的顺序输出来. Sample Input4 6 4 3 2 2 1 15 3 2 1 1 ...
- mydate97时间控件的使用
mydate97官网: http://www.my97.net/dp/index.asp 1:用法如下所示,首先下载一个这个东西: 链接:http://pan.baidu.com/s/1kVmIckv ...
- Centos7安装OpenLDAP
https://www.cnblogs.com/zhaijunming5/p/9522756.html