HbaseWAL

1、WAL意为 Write Ahead Log ，类似MySQL中的binlog，用来做灾难恢复之用，HLog记录数据的所有变更，一旦数据修改，就可以从Log中进行恢复。

Hbase采用类LSM的架构体系，数据写入并没有直接写入文件，而是会先写入缓存（Memstore），在满足一定条件下缓存缓存数据再会异步刷新到磁盘。为了防止数据写入缓存之后不会因为

RegionServer进程发生异常导致数据丢失，在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常，这种设计可以从HLog中进行日志回放进行数据补救，保证数据不丢失。

HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失的数据。

WAL（Write-Ahead Logging）是一种高效的日志算法，几乎是所有非内存数据库提升写性能的不二法门，基本原理是在数据写入之前首先顺序写入日志，然后再写入缓存，等到缓存写满之后统一落盘。

之所以能够提升写性能，是因为WAL将一次随机写转化为了一次顺序写加一次内存写。提升写性能的同时，WAL可以保证数据的可靠性，即在任何情况下数据不丢失。假如一次写入完成之后发生了宕机，即使所有缓存中的数据丢失，

也可以通过恢复日志还原出丢失的数据。

每个Region Server维护一个HLog，而不是每个Region一个。这样不同region（来自不同table）的日志会混在一起，这样做的目的是不断追加单个文件相对于同时写多个文件而言，可以减少磁盘寻址次数，因此可以提高对table的写性能。

带来的麻烦是，如果一台region server下线，为了恢复其上的Region，需要将RegionServer上的log进行拆分，然后分发到其他RegionServer上进行恢复。

HLog文件就是一个普通的Hadoop Sequence File:

1、HLog Sequence File 的key是HLogKey 对象，HLogKey中记录了写入数据的归属信息，除了table和region名字外，同时还包括 sequence number 和timestamp，timestamp是写入时间，sequence number的起始值为0，或者是最近一次存入文件系统中 sequence number。

2、HLog Sequence File 的Value是HBase 的keyvalue对象，即对应HFile中的keyValue。

WAL持久化等级

1、SKIP_WAL：只写缓存，不写HLog日志。这种方式因为只写内存，因此可以极大的提升写入性能，但是数据有丢失的风险。在实际应用过程中并不建议设置此等级，除非确认不要求数据的可靠性。

2、ASYNC_WL：异步将数据写入HLog日志中。

3、SYNC_WAL：同步将数据写入日志文件中，需要注意的是数据只是被写入文件系统中，并没有真正落盘。

4、FSYNC_WAL：同步将数据写入日志文件并强制落盘。最严格的日志写入等级，可以保证数据不会丢失，但是性能相对比较差。

5、USER_DEFAULT：默认如果用户没有指定持久化等级，Hbase使用SYNC_WAL等级持久化数据。

用户可以通过客户端设置WAL持久化等级，代码：

put.setDurability(Durability.SYNC_WAL);

2、MemStore和StoreFile

一个HRegion由多个Store组成，每个Store包含一个列族的所有数据

Store包括位于内存的一个MemStore和位于硬盘的多个StoreFile组成

写操作先写MemStore，当MemStore中的数据量达到某个阈值，HRegionServer启动启动flushcache进程写入Storefile，每次写入形成一个单独的一个HFile。

当总Storefile大小超过一定阈值后，会把当前的Region分割成两个，并由HMaster分配给相应的Region服务器，实现负载均衡。

客户端检索数据时，先在Memstore找，找不到再找Storefile。

3、当memstore达到一定的大小或是经历一个特定的时间之后，数据就会异步的连续写入到文件系统中。在写入的过程中，数据以一种不稳定的状态存放在内存中，即使在服务器完全崩溃的情况下，WAL也能保证数据不会丢失，因为

实际的日志存储在HDFS上。其他服务器可以打开日志文件然后回放这些修改，恢复操作并不在这些崩溃的物理服务器上进行。

HbaseWAL的更多相关文章

hbase master一直报启动不起来问题（region空洞和region卡在spilt）
数据不重要或者一直卡着的情况下,可以切换hdfs用户到hbase的wal目录下对spilting的数据进行重命名.具体步骤如下 1.关闭hbase集群 2.切换hdfs用户 3.到hbasewal目录 ...

随机推荐

P2014选课
洛谷P2014选课一道树形DP题. f[i][j]表示i个点选j门课程的最大学分. 递推方程: for(int a=n;a>0;a--)//总共选择多少 for(int b=0;b<a; ...
前端性能之LightHouse
"灯塔"(LightHouse)前端性能优化测试工具 (谷歌亲儿子) 一灯塔v6/v7版是通过几种性能指标及不同权重来进行计分的前端性能指标主要是根据PerformanceTi ...
并发队列ConcurrentLinkedQueue与LinkedBlockingQueue源码分析与对比
目录前言 ConcurrentLinkedQueue 使用方法存储结构初始化入队出队获取容器元素数量 LinkedBlockingQueue 使用方法存储结构初始化入队出队获取容 ...
ifix历史数据(H04/H08/H24)转换为CSV文件导出
在最近的一次环保数据维护中,由于自己疏忽导致数据库中TP值并未有效记录,还好历史趋势有相关记录,问题是我该如何将.H24文件记录导出?在逛论坛后,无意发现一款工具解决了我的燃眉之急-HTD2CSV.e ...
关于zend guard loard 扩展
官网http://www.zend.com/en/products/loader/downloads#Linux 安装安装在READ.ME中修改的php.ini是apache那边的保存,重启下就行 ...
LATEX学习和IEEE Tran模板介绍
目录软件的选择 IEEE 模板下载模板正文图表格公式算法参考文献 Latex学习网站:http://www.latexstudio.net/page/tex-documents/ IEE ...
Scrapy入门到放弃04：下载器中间件，让爬虫更完美
前言 MiddleWare,顾名思义,中间件.主要处理请求(例如添加代理IP.添加请求头等)和处理响应本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件. MiddleWare分类 ...
C++通讯录管理系统（添加联系人，显示联系人，删除联系人，查找联系人，修改联系人，清空联系人，退出通讯录）
1 /** 2 * ProjectNmae:通讯录管理系统 3 * 功能: 4 * 添加联系人:向通讯录添加新人 5 * 显示联系人:显示通讯录中的所有联系人信息 6 * 删除联系人:按照姓名进行删除 ...
Linux-shell编程经验记录
Linux-shell编程经验总结 1.接收用户输入 #读取用户输入并且将输入保存到input变量中 read -p "请输入:" input #也可以先输出信息再进行读取,这里的 ...
Lock（锁）
Lock(锁) 从JDK 5.0开始,Java提供了更加强大的线程同步机制----通过显示定义同步锁对象来实现同步.同步锁使用Lock对象充当. java.util.concurrent.locks. ...

HbaseWAL

HbaseWAL的更多相关文章

随机推荐

热门专题