HBase并行写机制(mvcc)

HBase在保证高性能的同时，为用户提供了便于理解的一致性数据模型MVCC (Multiversion Concurrency Control)，即多版本并发控制技术，把数据库的行锁与行的多个版本结合起来，从而去提高数据库系统的并发性能。

要理解mvcc，首先需知道为什么需要进行并发控制，我们知道关系型数据库一般都提供了跨越所有数据的ACID特性，为了性能考虑，HBase只提供了基于单行的ACID，维基上是这样介绍ACID的：

原子性（Atomicity）：事务作为一个整体被执行，包含在其中的对数据库的操作要么全部被执行，要么都不执行。
一致性（Consistency）：事务应确保数据库的状态从一个一致状态转变为另一个一致状态。一致状态的含义是数据库中的数据应满足完整性约束。
隔离性（Isolation）：多个事务并发执行时，一个事务的执行不应影响其他事务的执行。
持久性（Durability）：已被提交的事务对数据库的修改应该永久保存在数据库中。

如果对上面的解释不理解也没关系，下面举例来说，我们通常在写入数据库时，会遇到写写同步和读写同步两种情况，分开说：

一、写写同步

假设有两个程序同时往HBase某表中同一行的同一个Family（Info）的两个Qualifier（Company、Role）写入数据，一般情况下，这两个写入请求会被HBase RegionServer接收后封装成两个Call，然后被两个Handler（线程）分别处理，即将请求中的数据写入列簇Company的MemStore中，对于MemStore来说，这些数据是被并发的线程写入的。

具体写入数据时是以KeyValue为数据单位的，对于上图中的数据来说，实际写入时有四个KeyValue，每个写入线程负责写入两个KeyValue，如果HBase没有相应的并发控制，则这四个KeyValue写入MemStore的顺序是无法预料的，可能会出现以下情况：

最终得到的结果是：

这样就得到了不一致的结果。显然我们需要对并发写操作进行同步。最简单的一种方案是在对某一行进行操作之前，首先显式对该行进行加锁操作，加锁成功后才进行相应操作，否则只能等待获取锁，此时，写入流程如下：

(0) 获取行锁
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(3) 释放行锁

引入行锁的机制后，就可以避免并发情景下，对同一行数据进行操作（写入或更新）时出现数据交错的情况。

二、读写同步

假设我们没有为HBase的读操作引入任何的并发控制策略，在两次写入请求的同时，再发起一个读取请求，这三个请求都是针对同一行进行读写操作的，考虑如下情况：

如上图所示，如果读取请求正好在Waiter被写入MemStore之前被执行，最终得到的结果是：

可见需要对读和写也进行并发控制，不然会得到不一致的数据。最简单的方案就是读和写公用一把锁。这样虽然保证了ACID特性，但是读写操作同时抢占锁会互相影响各自的性能。

最简单的方案是和写入一样，在读取操作前后分别加入获取锁与释放锁的步骤，这样的话，性能一下子就下来了。HBase使用了一种mvcc的策略来避免读取的锁操作。

mvcc对于写操作：

(w1) 获取行锁后，每个写操作都立即分配一个写序号
(w2) 写操作在保存每个数据cell时都要带上写序号
(w3) 写操作需要申明以这个写序号来完成本次写操作

对于读操作:

(r1) 每个读操作开始都分配一个读序号，也称为读取点
(r2) 读取点的值是所有的写操作完成序号中的最大整数(所有的写操作完成序号<=读取点)
(r3) 对某个(row,column)的读取操作r来说，结果是满足写序号为“写序号<=读取点这个范围内”的最大整数的所有cell值的组合

使用了MVCC策略的执行过程如下：

采用MVCC后，每一次写操作都有一个写序号(即w1步)，每个cell数据写memstore操作都有一个写序号(w2，例如：“Cloudera [wn=1]”))，并且每次写操作完成也是基于这个写序号(w3)。

如果在“Restaurant [wn=2]” 这步之后，“Waiter [wn=2]”这步之前，开始一个读操作。根据规则r1和r2，读的序号为1。根据规则3，读操作以序号1读到的值是：

这样就实现了以无锁的方式读取到一致的数据了。

总结：

引入MVCC后写入操作流程如下：

(0) 获取行锁
(0a) 获取写序号
(1) 写WAL文件
(2) 更新MemStore：将每个cell写入到memstore
(2a) 以写序号完成操作
(3) 释放行锁

参考英文：https://blogs.apache.org/hbase/tags/mvcc

HBase并行写机制(mvcc)的更多相关文章

hadoop_并行写操作思路
这篇文章是关于,如何修改hadoop的src以实现在client端上传大文件到HDFS的时候, 为了提高上传的效率实现将文件划分成多个块,将块并行的写入到datanode的各个block中的初步的想 ...
MySQL多版本并发控制机制(MVCC)-源码浅析
MySQL多版本并发控制机制(MVCC)-源码浅析前言作为一个数据库爱好者,自己动手写过简单的SQL解析器以及存储引擎,但感觉还是不够过瘾.<<事务处理-概念与技术>>诚然 ...
hbase的TTL机制清除opentsdb的超时数据
我们发现用opentsdb向hbase写数据之后,磁盘占用率飙升得很快,我们存的业务数据只用保存一个月的即可,了解hbase的TTL机制可以清除相关表.相关行的超时数据,之前在数据备份时,我介绍了,o ...
Linux页快速缓存与回写机制分析
參考 <Linux内核设计与实现> ******************************************* 页快速缓存是linux内核实现的一种主要磁盘缓存,它主要用来降低 ...
IDEA中Spark往Hbase中写数据
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.io.ImmutableBytesWr ...
linux块设备的IO调度算法和回写机制
************************************************************************************** 參考: <Linux ...
HDFS写机制
HDFS写机制: 1.client客户端调用分布式文件系统对象DistributedFileSystem对象的create方法,创建一个文件输出流FSDataOutputStream对象. 2.Dis ...
Cache写机制
Cache 写机制分为:Write-through和Write-back Write-through(直写模式) 定义:在数据更新时,同时写入缓存Cache和后端存储(主存): 优点:操作简单: 缺点 ...
HBase的写事务，MVCC及新的写线程模型
MVCC是实现高性能数据库的关键技术,主要为了读不影响写.几乎所有数据库系统都用这技术,比如Spanner,看这里.Percolator,看这里.当然还有mysql.本文说HBase的MVCC和0.9 ...

随机推荐

python2.7练习小例子（十六）
16):题目:输入一行字符,分别统计出其中英文字母.空格.数字和其它字符的个数. 程序分析:利用 while 或 for 语句,条件为输入的字符不为 '\n'. 程序源代码: #!/u ...
JAVA中堆栈和内存分配详解(摘抄)
在Java中,有六个不同的地方可以存储数据: 1.寄存器:最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制. 2. 栈:存放基本类型的变量数据和对象的引用,但对象本身不存放在栈中,而是存 ...
【数据库】 SQLite 语法
[数据库] SQLite 语法一 . 创建数据库 1. 只需创建数据库,只需创建文件,操作时将连接字符串指向该文件即可 2. 连接字符串 : data source = FilePath; 不能加密 ...
ASP.NET Web API 2 返回 Json格式
最近在学习ASP.NET的Web API,刚刚开始以为会有些复杂,结果却非常简单. 学习的地址:http://www.asp.net/web-api/overview/getting-started- ...
Epplus下的一个将Excel转换成List的范型帮助类
因为前一段时间公司做项目的时候,用到了Excel导入和导出,然后自己找了个插件Epplus进行操作,自己将当时的一些代码抽离出来写了一个帮助类. 因为帮助类是在Epplus基础之上写的,项目需要引用E ...
docker简单命令
查看镜像 docker images 查看正在使用的容器 docker ps -a 进入容器控制台 docker exec -it 容器ID bash 启动镜像 docker run -it -d.. ...
Spark概念介绍
Spark概念介绍:spark应用程序在集群中以一系列独立的线程运行,通过驱动器程序(Driver Program)发起一系列的并行操作.SparkContext对象作为中间的连接对象,通过Spark ...
问题 A: Least Common Multiple
题目描述 The least common multiple (LCM) of a set of positive integers is the smallest positive integer ...
Alpha阶段展示
程序员杀产品经理祭天(SacrificePM)团队 1.团队成员简介和个人博客地址故事我们队伍的建立过程稍具戏剧性,大家看我们也颇为奇怪,这么一支8人队伍是怎么诞生的呢?其实我们原本分属三组,而第 ...
asp.net文件上传进度条研究
文章:asp.net 文件上传进度条实现代码

HBase并行写机制(mvcc)

HBase并行写机制(mvcc)的更多相关文章

随机推荐

热门专题