Multi-Paxos协议日志同步应用
使用Multi-Paxos协议的日志同步与恢复
基于Basic-Paxos协议的日志同步方案, 所有成员的身份都是平等的, 任何成员都可以提出日志持久化的提案, 并且尝试在成员组中进行持久化.
而在实际的工程应用中, 往往需要一个成员在一段时间内保持唯一leader的身份, 来服务对数据的增删改操作, 产生redolog, 并尝试在成员组中进行持久化. 接下来讨论如何利用Paxos协议选举唯一的leader, 以及使用leader将redolog在成员组中进行持久化和恢复的方法.
Basic-Paxos协议
通过前面的Basic-Paxos协议的执行流程可以看出:
- 每条redolog都需要执行一次
paxos instance
, 至少存在3次网络交互(1. get maxLogID; 2. prepareRequest; 3. acceptRequest;盘). - 机群内的server得到的LogID可能不唯一.
- prepare阶段会有失败而需要回退到第一步"获取logID"重新执行.
- accept阶段对prepare阶段决定出的议案进行投票, 得到多数派确认后表示redolog同步成功, 否则需要重新产生logID.
- 根据Paxos协议的约束, acceptor应答prepareRequest和acceptRequest前都要持久化本地redolog, 以避免重启后的行为与重启前自相矛盾.
Multi-Paxos协议概述
在Paxos集群中利用Paxos协议选举唯一的leader, 在leader有效期内所有的议案都只能由leader发起, 这里强化了协议的假设: 即leader有效期内不会有其他server提出的议案. 因此对于redolog的同步过程, 我们可以简化掉产生logID阶段和prepare阶段, 而是由唯一的leader产生logID, 然后直接执行accept, 得到多数派确认即表示redolog同步成功.
Leader选举
Multi-Paxos可以简单的理解为, 经过一轮的Basic-Paxos, 成功得到多数派accept的proposer即成为leader(这个过程称为leader Election), 之后可以通过lease机制, 保持这个leader的身份, 使得其他proposer不再发起提案, 这样就进入了一个leader任期. 在leader任期中, 由于没有了并发冲突, 这个leader在对后续的日志进行投票时, 不必每次都向多数派询问logID, 也不必执行prepareRequest阶段, 直接执行acceptRequest阶段即可.
因此在Multi-Paxos中, 我们将leader Election过程中的prepare操作, 视为对leader任期内将要写的所有日志的一次性prepare操作, 在leader任期内投票的所有日志将携带有相同的proposalID. 需要强调的是, 为了遵守Basic-Paxos协议约束, 在leader Election的prepare阶段, acceptor应答prepare成功的消息之前要先将这次prepare请求所携带的proposalID持久化到本地.
由于多个server并发执行leader Election, 可能出现两个server在相近的时间内, 先后执行leader Election都成功, 都认为自己是leader的情况. 因此, 当选leader在开始以leader身份提供服务之前, 要使用leader ProposalID写一条日志(称为StartWorking日志), 得到多数派确认后, 再开始提供服务. 这是因为根据Basic-Paxos的约束, 可以推断出: 先执行leader Election成功的leader(称为L1), 它的proposalID(称为P1)一定会小于后执行leader Election成功的leader(称为L2)的proposalID(称为P2), 而经过了两轮leader Election, 机群内多数派持久化的proposalID一定是P2, 而此时L1使用P1执行accept时, 由于P1<P2, 它将无法得到机群内多数派的accept, 因此最终机群内当选的leader将会是L2.
Confirm日志优化
在Basic-Paxos协议中, 对于决议的读取也是需要执行一轮Paxos过程, 在实际工程中做数据恢复时, 对每条日志都执行一轮Paxos的代价过大. 因此引入需要引入一种被成为confirm的机制, 即leader持久化一条日志, 得到多数派的accept后, 就再写一条针对这条日志的confirm日志, 表示这条日志已经确认形成了多数派备份, 在回放日志时, 判断如果一条日志有对应的confirm日志, 则可以直接读取本地内容, 而不需要再执行一轮Paxos. confirm日志只要写本地即可, 不需要同步到备机, 但是出于提示备机及时回放收到日志的考虑(备机收到一条日志后并不能立即回放, 需要确认这条日志已经形成多数派备份才能回放), leader也会批量的给备机同步confirm日志. 出于性能的考虑, confirm日志往往是延迟的成批写出去, 因此仍然会出现部分日志已经形成多数派备份, 但是没有对应的confirm日志的情况, 对于这些日志, 需要在恢复过程中进行重确认. 因此往往follower的数据是稍微延迟的(相对于leader).
在实际的工程实践中, 可以使用基于logID的滑动窗口机制来限制confirm日志与对应的原始日志的距离, 以简化日志回放与查询逻辑.
新任Leader对日志的reConfirm
如上一节所述, 在恢复过程中, 拥有对应confirm日志的原始日志, 可以被直接回放. 而没有对应confirm日志的原始日志, 则需要执行一轮Paxos, 这个过程被成为重确认.
此外日志中的"空洞", 也需要进行重确认, 因为当前leader在上一任leader的任期内可能错过了一些日志的同步, 而这些日志在其他机器上形成多了多数派. 由于logID连续递增, 被错过的日志就成了连续logID连续递增序列中的"空洞", 需要通过重确认来补全这些"空洞"位置的日志.
新任leader在开始执行重确认前, 需要先知道重确认的结束位置, 因为leader本地相对于集群内多数派可能已经落后很多日志, 所以需要向集群内其他server发送请求, 查询每个server本地的最大logID, 并从多数派的应答中选择最大的logID作为重确认的结束位置. 也即开始提供服务后写日志的起始logID.
对于每条日志的重确认, 需要执行一轮完整的Paxos过程, 可能有些日志在恢复前确实未形成多数派备份, 需要通过重新执行Paxos来把这些日志重新持久化才能回放. 这种不管日志是否曾经形成多数派备份, 都重新尝试持久化的原则, 称之为"最大commit原则". 之所以要遵守"最大commit原则", 是因为我们无法区分出来未形成多数派备份的日志, 而这些日志在上一任leader任期内, 也必然是"未决"状态, 尚未应答客户端, 所以无论如何都重新持久化都是安全的.
比如A/B/C三个server, 一条日志在A/B上持久化成功, 已经形成多数派, 然后B宕机; 另一种情况, A/B/C三个server, 一条日志只在A上持久化成功, 超时未形成多数派, 然后B宕机. 上述两种情况, 最终的状态都是A上有一条日志, C上没有, 在恢复时无法区分这条日志是否曾经形成过多数派, 因此干脆按照"最大commit原则"将这条日志尝试重新在A/C上持久化后再回放.
需要注意的是, 重确认日志时, 要使用当前的leader ProposalID作为Paxos协议中的proposalID来对日志执行Paxos过程. 因此在回放日志时, 对于logID相同的多条日志, 要以proposalID最大的为准.
"幽灵复现"日志的处理
使用Basic-Paxos协议处理日志的备份与恢复, 可以保证确认形成多数派的日志不丢失, 但是无法避免一种被称为"幽灵复现"的现象:
Leader | A | B | C | |
---|---|---|---|---|
第一轮 | A | 1-10 | 1-5 | 1-5 |
第一轮 | B | 宕机 | 1-6,20 | 1-6,20 |
第一轮 | A | 1-20 | 1-20 | 1-20 |
- 第一轮中A被选为Leader, 写下了1-10号日志, 其中1-5号日志形成了多数派, 并且已给客户端应答, 而对于6-10号日志, 超时未形成多数派, 客户端未能得到应答.
- 第二轮, A宕机, B被选为Leader, 由于B和C的最大的logID都是5, 因此B不会去重确认6-10号日志, 而是从6开始写新的日志, 此时如果客户端来查询的话, 是查询不到之前6-10号日志内容的, 此后第二轮又写入了6-20号日志, 但是只有6号和20号日志在多数派上持久化成功.
- 第三轮, A又被选为Leader, 从多数派中可以得到最大logID为20, 因此要将7-20号日志执行重确认, 其中就包括了A上的7-10号日志, 之后客户端再来查询的话, 会发现上次查询不到的7-10号日志又像幽灵一样重新出现了.
对于将Paxos协议应用在数据库日志同步场景的情况, "幽灵复现"问题是不可接受.
一个简单的例子就是转账场景, 用户转账时如果返回结果超时, 那么往往会查询一下转账是否成功, 来决定是否重试一下. 如果第一次查询转账结果时, 发现未生效而重试, 而转账事务日志作为幽灵复现日志重新出现的话, 就造成了用户重复转账.
处理"幽灵复现"问题, 需要依赖新任leader在完成日志重确认, 开始写入新的Redolog之前, 写出一条被称为 StartWorking的日志, 这条日志的内容中记录了当前leader的EpochID(可以使用proposalID的值), 并且leader每写一条日志都在日志内容中携带现任leader的EpochID. 回放时, 经过了一条StartWorking日志之后, 再遇到EpochID比它小的日志, 就直接忽略掉, 比如按照上面例子画出的这张图, 7-19号日志要在回放时被忽略掉.
参考:
http://research.microsoft.com/en-us/um/people/lamport/pubs/paxos-simple.pdf
http://www.cs.cmu.edu/~pavlo/courses/fall2013/static/papers/p398-chandra.pdf
http://codemacro.com/2014/10/15/explain-poxos/
http://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=403582309&idx=1&sn=80c006f4e84a8af35dc8e9654f018ace&3rd=MzA3MDU4NTYzMw==&scene=6#rd
http://oceanbase.org.cn/?p=111
http://mp.weixin.qq.com/s?__biz=MjM5MDg2NjIyMA==&mid=203607654&idx=1&sn=bfe71374fbca7ec5adf31bd3500ab95a&key=8ea74966bf01cfb6684dc066454e04bb5194d780db67f87b55480b52800238c2dfae323218ee8645f0c094e607ea7e6f&ascene=1&uin=MjA1MDk3Njk1&devicetype=webwx&version=70000001&pass_ticket=2ivcW%2FcENyzkz%2FGjIaPDdMzzf%2Bberd36%2FR3FYecikmo%3D
http://static.googleusercontent.com/media/research.google.com/zh-CN//archive/chubby-osdi06.pdf
Multi-Paxos协议日志同步应用的更多相关文章
- Basic-Paxos协议日志同步应用
使用Basic-Paxos协议的日志同步与恢复 传统数据库保持服务持续可用通常采用1主N备, 既采取两种日志同步模式: Maximum Availability和Maximum Protection. ...
- gap lock/next-key lock浅析 Basic-Paxos协议日志同步应用
http://www.cnblogs.com/renolei/p/4673842.html 当InnoDB在判断行锁是否冲突的时候, 除了最基本的IS/IX/S/X锁的冲突判断意外, InnoDB还将 ...
- gap lock/next-key lock浅析Basic-Paxos协议日志同步应用
http://www.cnblogs.com/renolei/p/4673842.html 当InnoDB在判断行锁是否冲突的时候, 除了最基本的IS/IX/S/X锁的冲突判断意外, InnoDB还将 ...
- Paxos 实现日志复制同步
Paxos 实现日志复制同步 本篇文章以 John Ousterhout(斯坦福大学教授) 和 Diego Ongaro(斯坦福大学获得博士学位,Raft算法发明人) 在 Youtube 上的讲解视频 ...
- Paxos 实现日志复制同步(Multi-Paxos)
Paxos 实现日志复制同步 这篇文章以一种易于理解的方式来解释 Multi-Paxos 的机制. Multi-Paxos 的是为了创建日志复制 一种实现方式是用一组基础 Paxos 实例,每条记录都 ...
- Paxos 实现日志复制同步(Basic Paxos)
Paxos 实现日志复制同步 本篇文章以 John Ousterhout(斯坦福大学教授) 和 Diego Ongaro(斯坦福大学获得博士学位,Raft算法发明人) 在 Youtube 上的讲解视频 ...
- paxos协议更新日志
基于Paxos协议的数据同步与传统主备方式最大的区别在与Paxos只需任意超过半数的副本在线且相互通信正常,就可以保证服务的持续可用,且数据不丢失. Basic paxos协议更新日志 我们将数据持久 ...
- 从 Basic Paxos 到 Multi Paxos 到 Raft
在朴素Paxos算法中, 各个节点经过 Prepare 和 Accept 阶段, 会达成一个值, 这个值一旦达成, 就不能被修改, 如下例子: 图示1 上面的操作几乎没有任何实用价值, 于是演变成下面 ...
- 使用multi-paxos实现日志同步应用
paxos 说multi-paxos之前先简要说一下paxos paxos是在多个成员之间对某个值(提议)达成一致的一致性协议.这个值可以是任何东西.比如多个成员之间进行选主,那么这个值就是主的身份. ...
随机推荐
- Prometheus 普罗米修斯监控
周末在家无聊 看新闻 看到关于监控的东西 拿来玩玩 试一下 感觉还蛮有意思 特此记录一下 这里只介绍客户端的配置 1:首先在POM中添加依赖 <dependency> <groupI ...
- Kindle 3(非常旧的版本) 隔一段时间自动重启问题
买了本新书后,kindle 3 自己没事就在那边重启,几分钟一次 查到解决方案1: https://answers.yahoo.com/question/index?qid=2014040815565 ...
- 团队项目-第十次scrum 会议
时间:11.6 时长:20分钟 地点:主235教室走廊 工作情况 团队成员 已完成任务 待完成任务 解小锐 完成多种招聘方式的逻辑编写 陈鑫 实现游戏的存档功能 李金奇 添加多种招聘方式等功能 王辰昱 ...
- 集显也能硬件编码:Intel SDK && 各种音视频编解码学习详解
http://blog.sina.com.cn/s/blog_4155bb1d0100soq9.html INTEL MEDIA SDK是INTEL推出的基于其内建显示核心的编解码技术,我们在播放高清 ...
- win7 Pthreads
扩展地址 http://docs.php.net/manual/zh/book.pthreads.php 注意事项 php5.3或以上,且为线程安全版本.apache和php使用的编译器必须一致. 通 ...
- Linux SNMP 监控一些常用OID
Linux SNMP 监控一些常用OID ===============linux服务器snmp常用oid http://www.haiyun.me/archives/linux-snmp-oid.h ...
- [洛谷P1536]村村通
题意:多组数据,当n为0时结束,每组数据表示有n个村子,m条路,求还需要建多少条路,使得所有的村子联通题解:用并查集求出有多少个联通块,然后求解 C++ Code: #include<cstdi ...
- ARC076 F Exhausted? Hall定理 + 线段树扫描线
---题面--- 题目大意: 有n个人,m个座位,每个人可以匹配的座位是[1, li] || [ri, m],可能有人不需要匹配座位(默认满足),问最少有多少人不能被满足. 题解: 首先可以看出这是一 ...
- 移动端弹窗滚动时window窗体也一起滚动的解决办法
在做移动端项目的时候发现,如果弹窗的内容很多很长,在滑动弹窗时,蒙层下面的window窗体也会跟着一起滚动,这样带来很差的视觉体验:当时也想了很多办法,比如判断滑动的元素,如果是弹窗里面的元素则禁止w ...
- 12.25模拟赛T3
可以发现,答案O(根号)(因为链上答案最大,n/2,n/3...根号种) 每次求答案要二分 优秀的做法是: 对于小于根号n的暴力nlogn找,可能二分到同一个mid,记忆化一下最小的tot值 对于大于 ...