HbaseWAL
1、WAL意为 Write Ahead Log ,类似MySQL中的binlog,用来做灾难恢复之用,HLog记录数据的所有变更,一旦数据修改,就可以从Log中进行恢复。
Hbase采用类LSM的架构体系,数据写入并没有直接写入文件,而是会先写入缓存(Memstore),在满足一定条件下缓存缓存数据再会异步刷新到磁盘。为了防止数据写入缓存之后不会因为
RegionServer进程发生异常导致数据丢失,在写入缓存之前会首先将数据顺序写入HLog中。如果不幸一旦发生RegionServer宕机或者其他异常,这种设计可以从HLog中进行日志回放进行数据补救,保证数据不丢失。
HBase故障恢复的最大看点就在于如何通过HLog回放补救丢失的数据。
WAL(Write-Ahead Logging)是一种高效的日志算法,几乎是所有非内存数据库提升写性能的不二法门,基本原理是在数据写入之前首先顺序写入日志,然后再写入缓存,等到缓存写满之后统一落盘。
之所以能够提升写性能,是因为WAL将一次随机写转化为了一次顺序写加一次内存写。提升写性能的同时,WAL可以保证数据的可靠性,即在任何情况下数据不丢失。假如一次写入完成之后发生了宕机,即使所有缓存中的数据丢失,
也可以通过恢复日志还原出丢失的数据。
每个Region Server维护一个HLog,而不是每个Region一个。这样不同region(来自不同table)的日志会混在一起,这样做的目的是不断追加单个文件相对于同时写多个文件而言,可以减少磁盘寻址次数,因此可以提高对table的写性能。
带来的麻烦是,如果一台region server下线,为了恢复其上的Region,需要将RegionServer上的log进行拆分,然后分发到其他RegionServer上进行恢复。
HLog文件就是一个普通的Hadoop Sequence File:
1、HLog Sequence File 的key是HLogKey 对象,HLogKey中记录了写入数据的归属信息,除了table和region名字外,同时还包括 sequence number 和timestamp,timestamp是写入时间,sequence number的起始值为0,或者是最近一次存入文件系统中 sequence number。
2、HLog Sequence File 的Value是HBase 的keyvalue对象,即对应HFile中的keyValue。
WAL持久化等级
1、SKIP_WAL:只写缓存,不写HLog日志。这种方式因为只写内存,因此可以极大的提升写入性能,但是数据有丢失的风险。在实际应用过程中并不建议设置此等级,除非确认不要求数据的可靠性。
2、ASYNC_WL:异步将数据写入HLog日志中。
3、SYNC_WAL:同步将数据写入日志文件中,需要注意的是数据只是被写入文件系统中,并没有真正落盘。
4、FSYNC_WAL:同步将数据写入日志文件并强制落盘。最严格的日志写入等级,可以保证数据不会丢失,但是性能相对比较差。
5、USER_DEFAULT:默认如果用户没有指定持久化等级,Hbase使用SYNC_WAL等级持久化数据。
用户可以通过客户端设置WAL持久化等级,代码:
put.setDurability(Durability.SYNC_WAL);
2、MemStore和StoreFile
一个HRegion由多个Store组成,每个Store包含一个列族的所有数据
Store包括位于内存的一个MemStore和位于硬盘的多个StoreFile组成
写操作先写MemStore,当MemStore中的数据量达到某个阈值,HRegionServer启动启动flushcache进程写入Storefile,每次写入形成一个单独的一个HFile。
当总Storefile大小超过一定阈值后,会把当前的Region分割成两个,并由HMaster分配给相应的Region服务器,实现负载均衡。
客户端检索数据时,先在Memstore找,找不到再找Storefile。
3、当memstore达到一定的大小或是经历一个特定的时间之后,数据就会异步的连续写入到文件系统中。在写入的过程中,数据以一种不稳定的状态存放在内存中,即使在服务器完全崩溃的情况下,WAL也能保证数据不会丢失,因为
实际的日志存储在HDFS上。其他服务器可以打开日志文件然后回放这些修改,恢复操作并不在这些崩溃的物理服务器上进行。
HbaseWAL的更多相关文章
- hbase master一直报启动不起来问题(region空洞和region卡在spilt)
数据不重要或者一直卡着的情况下,可以切换hdfs用户到hbase的wal目录下对spilting的数据进行重命名.具体步骤如下 1.关闭hbase集群 2.切换hdfs用户 3.到hbasewal目录 ...
随机推荐
- 使用idea,GitHub时,push和clone出现的一些问题
使用idea,GitHub时,push和clone出现的一些问题 报错:No anonymous write access 这个的原因是在idea记住的用户名和GitHub登录的不一样,导致报错.笔者 ...
- IO流之节点流(字节流)
节点流可以分为:字节节点流和字符节点流 数据源直接到程序的成为节点流(低级流) 字节流 输入流----InputStream InputStream 是输入流的抽象父类,若创建对象,需new它的子类 ...
- SAML 2.0 实例分析 idp向sp发送响应(4)
当idp与user建立起联系后,idp向sp发送响应 <samlp:Response xmlns:samlp="urn:oasis:names:tc:SAML:2.0:protocol ...
- redis故障时的一些概念
1.缓存穿透 概念访问一个不存在的key,缓存不起作用,请求会穿透到DB,流量大时DB会挂掉. 解决方案采用布隆过滤器,使用一个足够大的bitmap,用于存储可能访问的key,不存在的key直接被过滤 ...
- JDK1.7HashMap死锁
JDK1.7HashMap多线程问题 Java技术交流群:737698533 在看之前可以先看看JDK1.7的Hashmap的源码 HashMap在多线程情况下是不安全的,一个是数据的准确性问题,一个 ...
- 《SEO实战密码》
一.搜索引擎 1.蜘蛛访问网站时都会先访问网站根目录下的 robots.txt 文件. 2.蜘蛛喜欢访问经常更新的页面. 3.离首页点击距离越近,页面权重越高. 4.使用"" + ...
- 【LeetCode】81. 搜索旋转排序数组 II
81. 搜索旋转排序数组 II 知识点:数组,二分查找: 题目描述 已知存在一个按非降序排列的整数数组 nums ,数组中的值不必互不相同. 在传递给函数之前,nums 在预先未知的某个下标 k(0 ...
- Mariadb常用管理操作
一 Mariadb常用管理操作 纯干货,没有一点废话,全是使用频率最高和常用的操作,运维必不可少的基础资料. 1.1 创建数据库 >create database <db_name> ...
- 墙裂推荐!2020Android阿里&腾讯&百度&字节&美团校招面试汇总
基本情况 2021届硕士生,Android开发岗 此文主要是2020年年初春招实习的面试和正式校招面试经验汇总,最终校招拿到了腾讯,百度,美团等offer 主要包括阿里4面,腾讯实习4面和校招4面,字 ...
- 爱了!阿里大神最佳总结“Flutter进阶学习笔记”,理论与实战
前言 "小步快跑.快速迭代"的开发大环境下,"一套代码.多端运行"是很多开发团队的梦想,美团也一样.他们做了很多跨平台开发框架的尝试:React Native. ...