etcd raft如何实现成员变更】的更多相关文章

成员变更在一致性协议里稍复杂一些,由于不同的成员不可能在同一时刻从旧成员组切换至新成员组,所以可能出现两个不相交的majority,从而导致同一个term出现两个leader,进而导致同一个index的日志不一致,违反一致性协议.下图是个例子: raft作者提出了一种比较简单的方法,一次只增加或减少一个成员,这样能够保证任何时刻,都不可能出现两个不相交的majority,所以,可以从旧成员组直接切到新成员组.如下图: 切换的时机是把成员变更日志写盘的时候,不管是否commit.这个切换时机带来的…
将成员变更纳入到算法中是Raft易于应用到实践中的关键,相对于Paxos,它给出了明确的变更过程(实践的基础,任何现实的系统中都会遇到因为硬件故障等原因引起的节点变更的操作). 显然,我们可以通过shutdown集群,然后变更配置后重启集群的方式达到成员变更的目的.但是这种操作会损失系统的可用性,同时会带来操作失误引起的风险.支持自动化配置,即配置可以在集群运行期间进行动态的变更(不影响可用性)显示是一个非常重要的特性. Raft成员变更机制 在成员变更时,因为无法做到在同一个时刻使所有的节点从…
转载请注明出处:https://www.cnblogs.com/morningli/p/16770129.html 之前都在集群配置是固定的(参与共识算法的server集合)假设下讨论raft.在实践中,偶尔有需要改变配置,比如说当server故障时替换server,或者改变复制级别.虽然可以通过下线整个集群,更新配置文件,重启集群来实现,但是这样会导致集群在改变的过程中一直不可用.另外,人工操作存在操作错误的风险.为了避免这样的问题,raft通过自动化配置变更并将它包含到raft共识算法中.…
早在2013年11月份,在raft论文还只能在网上下载到草稿版时,我曾经写过一篇blog对其进行简要分析.4年过去了,各种raft协议的讲解铺天盖地,raft也确实得到了广泛的应用.其中最知名的应用莫过于etcd.etcd将raft协议本身实现为一个library,位于https://github.com/coreos/etcd/tree/master/raft,然后本身作为一个应用使用它. 本文不讲解raft协议核心内容,而是站在一个etcd raft library使用者的角度,讲解要用上这…
https://github.com/coreos/etcd/tree/master/raft import "github.com/coreos/etcd/raft" --------------------------------------------------------------------------- raft是一个协议,一个节点集群可以维护一个复制状态机.状态机通过使用复制日志保持同步.有关Raft的更多详细信息,请参阅Diego Ongaro和John Ouste…
etcd raft选举机制 etcd 是一个分布式的k/V存储系统.核心使用了RAFT分布式一致性协议.一致性这个概念,它是指多个服务器在状态达成一致,但是在一个分布式系统中,因为各种意外可能,有的服务器可能会崩溃或变得不可靠,它就不能和其他服务器达成一致状态.这样就需要一种Consensus协议,一致性协议是为了确保容错性,也就是即使系统中有一两个服务器当机,也不会影响其处理过程. 为了以容错方式达成一致,我们不可能要求所有服务器100%都达成一致状态,只要超过半数的大多数服务器达成一致就可以…
最近在看raft相关的代码和实现,发现etcd的raft模块在实现上还是比较灵活的,但缺点就是需要用户实现比较多的功能,如存储和网络等,同时带来的优点就是不会对用户的存储和传输作限制.网上对该模块的描述也比较多,这里我主要根据代码画出简易的处理逻辑,代码逻辑可以参考这里(后续流程图也会按照这个系列的讲解顺序来). 该例子给出了etcd raft处理的总体架构图,但并不涉及raft处理的细节,绿底部分为raft节点的server,右下侧为需要用户实现的存储和传输层.右上侧为对外的Http serv…
leadership transfer可以把raft group中的leader身份转给其中一个follower.这个功能可以用来做负载均衡,比如可以把leader放在性能更好的机器或者离客户端更近的机器上. 对于一个大规模分布式系统来说,负载均衡非常重要.然而raft本身在选主方面必须要求新主包含所有的意境committed的log,从这点上看,在选主阶段,不能加入自定义的选主逻辑.而paxos协议不太一样,paxos对选主没有要求,任何一个成员都可以成为主,选主协议可以自己实现.paxos…
存储和节点的创建 raftexample中的存储其实有两种,一个是通过raft.NewMemoryStorage()进行创建的raft.raftStorage,关联到单个raft节点,另一个是通过newKVStore创建的kv存储,用于服务来自外部的访问. 节点启动时raft.raftStorage的加载 上一篇中主要围绕replayWAL介绍wal的读写,到本文为止可以完整拼接出该函数的处理逻辑.其中snapshot的作用是通过index限定了加载的wal日志的范围. 一开始会通过loadSn…
Linearizable Read通俗来讲,就是读请求需要读到最新的已经commit的数据,不会读到老数据. 对于使用raft协议来保证多副本强一致的系统中,读写请求都可以通过走一次raft协议来满足.然后,现实系统中,读请求通常会占很大比重,如果每次读请求都要走一次raft落盘,性能可想而知.所以优化读性能至关重要. 从raft协议可知,leader拥有最新的状态,如果读请求都走leader,那么leader可以直接返回结果给客户端.然而,在出现网络分区和时钟快慢相差比较大的情况下,这有可能会…