【HBase】知识小结+HMaster选举、故障恢复、读写流程
1:什么是HBase
HBase是一个高可靠性,高性能,面向列,可伸缩的分布式数据库,提供海量数据存储功能,一个结构化的分布式存储系统,不同于一般的关系型数据库,它适合半结构化和非结构化数据存储。
2:HBase表的特点
大:一个表中可以有数十亿行,上百万列
无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列
面向列:面向列存储和权限控制
稀疏:空列并不占用存储空间,可以设计的非常稀疏
数据多版本:每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入的时间戳
数据类型单一:Hbase中的数据都是字符串,没有类型
3:HBase架构

HBase由client,zookeeper,HMaster,HRegionServer,HRegion以及StoreFile和HFile组成
Client
是HBase的接口,并维护cache来加快对HBase的访问,client不是直接和HMaster直接通信,而是和ZooKeeper,通过Zookeeper返回HRegionServer,在client去找对应的HRegionServer
HMaster是主节点
HMaster进程负责管理所有的RegionServer,包括新的RegionServer的注册,RegionServer的故障切换处理。负责RegionServer的负载均衡。发现失效的RegionServer并重新分配其上的Region。管理用户对table的增删改查工作。GFS上的垃圾文件回收。处理Schema更新请求.
Zookeeper
保证任何时候集群只有一个Master。存储region的寻址入口。实现监控RegionServer的上线和下线信息,并实现通知给Master。存储HBase的schma和table元数据.
HRegion Server
HRegionServer是HBase的从点,它负责提供表数据读写等服务,是数据存储和计算单元。一台HRegionServer管理多个Region和一个Hlog
Region Server负责维护Master分配给它的Region,处理对这些Region的IO请求
Region Server负责切分在运行过程中变得过大的Region
Region
一个region由一个或多个store组成,每个store存储该region一个列簇的数据,一个store包含一个memstore缓存以及若干StoreFile文件,Memstore缓存客户端向region插入的数据,当HregionServer中的Memstore大小达到配置容量上限时,RegionServer会将Memstore中的数据刷新(flush)到HDFS中,成为Hfile。
Region是将一个数据表按Key值范围横向划分为一个个的子表,实现分布式存储
Region分为元数据Region以及用户Region两类
元数据Region也叫Meta Region,记录了每个Region的路由信息,每个子表的存放位置,起始Key值,元数据Region存放在Root表中,Root表则存放在Zookeeper中
读取Region数据的路由需要以下几步
1:在Zookeeper只查找Meta Region的地址
2:再由Meta Region中寻找User Region的地址
Zookeeper(HMaster选举流程)
主备Master同时向ZooKeeper注册自己的节点信息,谁先写入,谁就是主节点
注册写入时会查询有没有相对应的节点,如果有,这个HMaster查看主节点是谁,如果主Master有相对应的节点并且实时更新了,那么这个HMaster就会自动作为备节点,进入休眠状态
备节点会实时监听ZooKeeper的状态主节点的信息
在系统开始时,主备节点都会向Zookeeper里面创建一个目录,比如叫HBase,在目录中写入节点信息,创建之前先去查询里面有没有这个目录以及目录里面文件的时间戳信息与当前节点的时间戳信息做对比,如果对比超过了5秒钟,那说明这个节点已经损坏了主节点每隔一秒更新下时间戳,备节点每隔一秒去查询下时间戳,当主节点宕机时,时间戳没更新,备节点查询超过5秒钟没有更新,意味着主节点已经宕机,备节点非常高兴的把自己的节点信息写入,变成主节点
保证任何时候,集群中只有一个Master
存储所有Region的寻址入口
实时监控Region Server的状态,将Region Server的上线和下线信息实时通知给Master
存储HBase的Schema,包括有哪些Table,每个Table有哪些Column family
MemStore和StoreFile
MenStore相当于缓存功能,数据会先写入MemStore,然后再写入StoreFile
当MemStore大小达到某个值时,会进行刷盘操作,启动flashcache进程,把MenStore数据生成StoreFile文件
HDFS也会有合并文件的操作,不适合存储文件数量太多的文件,HDFS不适合文件随机的修改和删除,所有操作都是在文件的末尾做追加
HBase数据的修改和删除是在数据合并时,才会真正的做修改和删除
4:HBase Write-Ahead_log(WAL)机制,容错与恢复
该机制用于数据的容错和恢复
每个HRegionServer中都有一个HLog对象,HLog是一个实现Write Ahead log的类,在每次用户操作写入MemStore的同时,也会写一份数据到HLog文件中,HLog文件定期滚动出新的,并删除旧的文件,即已经持久化到StoreFile中的数据,当HRegionServer意外终止后,HMaster会通过Zookeeper感知到,HMaster首先会处理遗留的HLog文件,将其中不同Region的Log数据进行拆分,分别放到相应Region的目录下,然后再将失效的Region重新分配,领取到这些Region的HRegionServer在Load Region的过程中,会发现有历史HLog需要处理,因此会Replay Hlog中的数据到MemStore中,然后Flush到StoreFiles,完成数据恢复
1.RegionServer故障,ZK感知到。
2.通知HMaster
3.HMstaer拆分Hlog,根据所属region来拆分。
4.拆分后,存放到对应的region的目录里面去。
5.把故障的region分配到其他的RegionServer.
6.新的RegionServer加载故障的region,加载相应的Hlog文件。
5:HBase的写流程
数据写请求首先发给client,client查询该数据应该往哪个地方存储,会去zookeeper查询MetaRegion获取现在要写入数据应该在哪个Region里面,获取到之后,再根据获取额结果做个分组,发给各个RegionServer,数据并发写入,数据先写入MemStore,然后再写入HLog,写完后,HMaster也会做相应的更新,然后才会返回写成功
当MemStore达到一定值时,也会做个刷盘操作,生成一个新的HFile文件,当HFile文件变多之后,也会做个合并,数据最终存放在DataNode里面
1.客户端发起写请求
2.客户端会和ZK通讯,请求meta-region的路由信息。
3.得到ZK返回后,会和相应的RegionServer通讯。
4.在相应的meta-region表中读到数据存放位置。
5.将数据根据regionserver和region进行的分组打包
6.获得region锁机制
7.并行发送到各个RegionServer上。
8.数据写入相应Store里面的MemStore,同时会在Hlog里面写一份。
9.RegionServer通知HMaster更新信息。
10.返回写成功。
PS:HBase,数据删除,是在数据整合/合并的时候完成的。
数据越来越多,生成的StoreFile越来越大,数据合并;分裂成形成新的StoreFile;
数据持续增加,RegionServer会把Region分裂成两个region,通知HMaster更新信息。
6:HBase的读流程
客户端发起请求,通过Zookeeper寻找到Meta表所在RegionServer,通过RowKey查找Meta表,获取所要读取的Region所在RegionServer,请求发送到该RegionServer,由其具体处理数据读取
1.客户端发起读请求。
2.客户端回合ZK通讯,请求ROOT表,读元数据region的路由信息。
3.收到ZK返回之后,会和相应的Regionserver.找到相应的meta-region,获取数据的位置
4.收到返回后,到数据所在的Region上读取数据。
【HBase】知识小结+HMaster选举、故障恢复、读写流程的更多相关文章
- HBase 数据读写流程
HBase 数据读写流程 2016-10-18 杜亦舒 读数据 HBase的表是按行拆分为一个个 region 块儿,这些块儿被放置在各个 regionserver 中 假设现在想在用户表中获取 ro ...
- HBase二级索引、读写流程
HBase二级索引.读写流程 一.HBse二级索引方案 1.1 基于Coprocessor方案 1.2 Phoenix二级索引特点 1.3 Phoenix 二级索引方案 二.HBase读写流程 2.1 ...
- Hbase的读写流程
HBase读写流程 1.HBase读数据流程 HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在 ...
- zookeeper的读写流程
zookeeper的读写流程 基本架构 节点数要求是奇数. 常用的接口是 get/set/create/getChildren. 读写流程 写流程 客户端连接到集群中某一个节点 客户端发送写请求 服务 ...
- S3C6410 SPI全双工读写流程分析(原创)【转】
转自:http://blog.csdn.net/hustyangju/article/details/21165721 原创博文,知识共享!转载请注明出处:http://blog.csdn.net/h ...
- Android app开发知识小结
Android知识小结 这是一个知识的总结,所以没有详解的讲解. 一.分辨率Android中dp长度.sp字体使用.px像素.in英寸.pt英寸1/72.mm毫米 了解dp首先要知道density,d ...
- HDFS文件读写流程
一.HDFS HDFS全称是Hadoop Distributed System.HDFS是为以流的方式存取大文件而设计的.适用于几百MB,GB以及TB,并写一次读多次的场合.而对于低延时数据访问.大量 ...
- C/C++ 位域知识小结
C/C++ 位域知识小结 几篇较全面的位域相关的文章: http://www.uplook.cn/blog/9/93362/ C/C++位域(Bit-fields)之我见 C中的位域与大小端问题 内存 ...
- 【转】linux IO子系统和文件系统读写流程
原文地址:linux IO子系统和文件系统读写流程 我们含有分析的,是基于2.6.32及其后的内核. 我们在linux上总是要保存数据,数据要么保存在文件系统里(如ext3),要么就保存在裸设备里.我 ...
随机推荐
- Cassandra数据建模
1. 概述 Apache Cassandra将数据存储在表中,每个表都由行和列组成.CQL(Cassandra查询语言)用于查询存储在表中的数据.Apache Cassandra数据模型基于查询并针 ...
- MySQL 主从复制原理及过程讲解
mysql主从原理描述,摘自老男孩. 下面简 单描述下 MySQL Replication 复制的原理及过程 . 1.在 Slave 服务器上执行 start slave 命令开启主从复制开关,主从复 ...
- [hdu4416 Good Article Good sentence]后缀自动机SAM
题意:给出串A和串集合B={B1,B2,...,Bn},求串A的所有不同子串中不是B中任一串的子串的数目. 思路:把A和B中所有字符串依次拼接在一起,然后构造后缀自动机,计算每个状态的R集合元素的最大 ...
- 内网穿透访问Vue项目的时候出现Invalid Host header解决办法
适用场景: 在本地的Vue-cli3项目, 需要其他人浏览. 如果没有外网的服务器, 可以把自己的电脑当做服务器. 这时候需要外网的人能访问到自己的电脑. Mac内网穿透工具:natapp Inval ...
- JS理论:编码习惯
1.声明变量,你只会var吗?那你真的是JS小鲜肉 如果要声明3个变量,你要var 三下吗? 不用: let [a,b,c] = ['name',18,'ddd'] console.log(a,b,c ...
- Python-控制台实现简单的名片管理系统
通过Python开发一个基于控制台的名片管理系统,具体看下图以及相关代码. cards_main.py文件中提供程序的入口 import cards_toolslx while True: # TOD ...
- 「雕爷学编程」Arduino动手做(22)——8X8 LED点阵MAX7219屏
37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器和模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里 ...
- Tensorflow从0到1(一)之如何安装Tensorflow(Windows和Linux两种版本)
现在越来越多的人工智能和机器学习以及深度学习,强化学习出现了,然后自己也对这个产生了点兴趣,特别的进行了一点点学习,就通过这篇文章来简单介绍一下,关于如何搭建Tensorflow以及如何进行使用.建议 ...
- 复习webpack的常用loader
今天复习了下webpack的常用loaders,其实习惯ES6开发的话,webpack的config.js基础配置应该是比较固定: 首先是JS,我们ES6要转为ES5,需要用到babel转码: 1. ...
- React 中使用sass
npm install node-sass-chokidar --save-dev package.json添加两行: "scripts": { 2 "build-css ...