《Cluster Concepts》

http://linux-ha.org/wiki/Cluster_Concepts

《Managing Computers with Automation》

http://techthoughts.typepad.com/managing_computers/2007/10/split-brain-quo.html

《clusters and quorums》

http://docs.openstack.org/ha-guide/intro-ha-concepts.html#clusters-and-quorums

《votequorum - Votequorum Configuration Overview》

http://manpages.ubuntu.com/manpages/saucy/man5/votequorum.5.html

集群(cluster)中的概念有:

1、subcluster,子集群。集群中发生了脑裂,分裂成若干个子集群,每个子集群中的节点无法与其它子集群的节点联系。

2、fencing,栅栏。指像栅栏一样,将子集群与资源隔离开,使子集群无法访问资源。

3、quorum,法定票数。只有达到法定票数的子集群才能继续工作,无法达到法定票数的子集群被栅栏隔离开。

4、vote,投票。每个节点拥有1票,计算某个子集群中的总票数,就是这个子集群中有多少个节点。

法定票数=大于集群节点总数的一半的最小整数。例如,节点总数是3,节点总数的一半是1.5,大于1.5的最小整数是2,即法定票数是2。如果节点总数是4,则法定票数是3。

假如有一个9个节点的集群:{a0, a1, a2, a3, a4, a5, a6, a7, a8},则法定票数是5,若因为网络问题发生脑裂,以下是所有可能性的其中几种:

可能性一:{a0, a1, a2}, {a3, a4, a5}, {a6, a7, a8},分裂成了3个子集群,则每个子集群的票数是3、3、3,都小于法定票数5,不满足法定票数的子集群被栅栏隔离,全部子集群都被隔离,整个集群处于无法工作的状态。

可能性二:{a0, a1, a2, a3, a4}, {a5, a6, a7, a8},分裂成了2个子集群,则每个子集群的票数是5、4,只有一个子集群的票数达到法定票数5,该集群得以继续工作,不满足法定票数的子集群被栅栏隔离,整个集群可以继续工作。

可以看出,一个集群中,能够达到法定票数的子集群最多只能有一个。

对于集群中一些不支持并发的资源,如磁盘资源,在发生脑裂时,如果不使用栅栏,每个子集群都具有写入磁盘资源的权限,这将破坏磁盘数据。

注意:脑裂概念和子集群中的节点不可用的概念不要混淆起来。例如法定票数=3,子集群{a0, a1, a2},达到了法定票数,能够继续工作,但a2节点可能已经处于不可用状态,但a2还是属于这个子集群。子集群是一个逻辑概念,其实子集群{a0, a1, a2}相当于a0只知道a1、a2的存在,a1只知道a0、a2的存在,a2只知道a0、a1的存在。即使a2节点处于不可用状态,只要满足前的“知道存在”关系,a2就还在这个子集群中。子集群中的资源还是能在可用节点上转移。

对于只有2个节点的集群,法定票数是2,当发生脑裂时,两个子集群的票数都是1,不满足法定票数,此时整个集群都无法工作。这也是官网推荐的最小集群节点数量为3的原因。个人认为,如果不存在不能并发的资源,其实脑裂也无妨。如果想两个节点都能工作,编辑corosync.conf,在quorum语块中显示指定“two_node: 1”:

quorum {
    provider: corosync_votequorum
    two_node: 1
    }

如果超过2个节点加入集群,two_node自动失效。

corosync集群的选举算法的更多相关文章

  1. 吴裕雄--天生自然HADOOP学习笔记:hadoop集群实现PageRank算法实验报告

    实验课程名称:大数据处理技术 实验项目名称:hadoop集群实现PageRank算法 实验类型:综合性 实验日期:2018年 6 月4日-6月14日 学生姓名 吴裕雄 学号 15210120331 班 ...

  2. 2、corosync集群初步

    配置高可用集群 配置环境:两台centos7 192.168.184.141  192.168.184.142 corosync v2 + pacemaker corosync v2:vote sys ...

  3. Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)

    Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的 ...

  4. 3、基于多播、安全认证的corosync集群(VIP、Httpd、Filesystem)

    Messaging Layer --> CRM --> RA systemd:/usr/lib/systemd/system     systemd有一个特性,即便一个服务开机启动,但是在 ...

  5. Redis集群master选举时长测试

    在一台物理机上启动6个Redis实例,组成3主3从集群,端口号依次为:1379 ~ 1384,端口号1379.1380和1384三个为master,端口1379的进程ID为17620.现将进程1762 ...

  6. 借 redis cluster 集群,聊一聊集群中数据分布算法

    Redis Cluster 集群中涉及到了数据分布问题,因为 redis cluster 是多 master 的结构,每个 master 都是可以提供存储服务的,这就会涉及到数据分布的问题,在新的 r ...

  7. 负载均衡集群之LVS算法和模型

    LVS-->Linux Virtual Server 实现算法-->静态/动态,共10种 静态算法:     rr(round robin):         解析:轮叫算法,即0-9循环 ...

  8. Kafka集群副本分配算法解析

    副本分配算法如下: 将所有N Broker和待分配的i个Partition排序. 将第i个Partition分配到第(i mod n)个Broker上. 将第i个Partition的第j个副本分配到第 ...

  9. Zookeeper在Dubbo中的作用及Zk集群的选举原理

    转自 : https://blog.csdn.net/zh15732621679/article/details/80723358

随机推荐

  1. eclipse配置tomcat及修改tomcat默认根目录

    1.安装eclipse for j2ee和tomcat: 2.下载tomcat对eclipse的插件:http://www.eclipsetotale.com/tomcatPlugin.html 下载 ...

  2. 【素数】 poj 2739 一个数能有多少种连续素数相加方案

    简单题 素数打表   根据数据量  用n2算法遍历  开一个save[k]素数存前k个素数和即可. #include <iostream> #include <cstdio> ...

  3. css 重新学习系列(3)

    摘自:http://www.cnblogs.com/websugar/articles/2406416.html   十步图解CSS的Position CSS的position,我想做为一个Web制作 ...

  4. jQuery仿百度帖吧头部固定不随滚动条滚动效果

    <style> *{margin:0px;padding:0px;} div.nav{background:#000000;height:57px;line-height:57px;col ...

  5. nginx之fastcgi

    fastcgi的应用程序就是一个while循环在,不停的accept,如果收到相应的服务请求则负责服务并将结果返回. 在fastcgi的进程环境中,标准输入与标准输出已经被重定向到了监听的socket ...

  6. RMQ 详解

    RMQ(Range Minimum/Maximum Query)问题:RMQ问题是给定一个区间,求这个区间中的最大或最小值的问题 RMQ采用动态规划的思想来求解:(st算法:Square Table) ...

  7. CodeForces 701C They Are Everywhere(map的应用)

    这个题比较好的解决办法,我觉得还是map,map的size可以很快的知道我们选了几个字母,而且可以作为计数器,知道每一个字母出现了多少次, erase函数可以清除掉一个元素. 所以,定义两个指针L和R ...

  8. AngularJS 基础用法

    判断语句: <li ng-repeat=”person in persons”> <span ng-switch on=”person.sex”> <span ng-sw ...

  9. kvm的live-snapshot

    目前项目中已经存在的快照是针对卷的快照,并且需要关机.所以目前的需求有两个:1.不关机快照:2.针对虚拟机的快照,而不是针对券的快照. 由需求所以针对libvirt做了一些实验,纪录如下: 环境:物理 ...

  10. PAT1016

    A long-distance telephone company charges its customers by the following rules: 一个长途电话公司费用告诉它的顾客需要遵循 ...