昨天读了paxos算法,心里对分布式一致性有一些想法:如果是我,应该怎么实现数据库集群的一致性呢?

paxos算法本身并没有提到其应用,所以实际使用情况应该较复杂。而我平时接触到使用分布式一致性算法的就是mongodb replicaset。它和zookeeper相似,只是它的data model不只包括集群配置,还有其庞大复杂的数据库。

paxos为何需要两阶段?也许是在learn的时候方便直接使用?也许是

印象中mongodb选master只需要一次请求就行(貌似slideshare上的mongo讲义上看的),只要提出请求等待被accept就行,如果它得到多数回应接受,它就成为新的master(如果多数都回应了acceptance,但是它不知道,那么它就不是master,是master的条件是它已经知道,如果它不知道它就一直询问直到得到多数回应),它向所有node发出通知自己是master。对于每个数据写请求,通过master发送给所有node之后,收到大多数的acceptance后master才认为写入成功,它发出通知最新版本是oplogid,没有更新到最新的node就从server拿数据。如果发现master挂了(或者连接超时)而能连上多数节点,就发出一个选举自己当master的提议,收到多数acceptance(acceptor只有在连不上原来master的情况下才同意)才认为自己已经是master,它发出通知它已经是master了,得到多数节点"知道了"的回应(这些节点就停止接收旧master的数据),然后它向集群中的节点查询最新版本,根据多数回应决定它需要同步多少数据,选择一个它认为的包含最新版本的节点,同步好这些数据之后它就开始处理新的写请求了。

需要特别说明的是,对于数据写,master可能不知道大多数是否已经写成功,如果无法确知它会一直询问,直到得到多数回应。只有样它才进行后面的写操作。注意还有一个majority的问题,要等待数据写成功的majority应该要设置得比集群一半大一些,比如21个节点的集群,11个就已经超过一半,但写成功的等待比如超过15台才觉得合适。因为如果只是设成11,这11台当时写成功了,但过了一会有一台挂了等于没构成多数,还是没写成功。因此等majority写成功不意味着一定写成功了,但是这个majority设得高一些,成功率可以接近100%。而查询状态的majority只要超过1半就行。

上述系统由于需要很多通信完成同步,要求节点之间延迟较低,在master选择之后,写操作全由master发起,写性能比较差,节点越多写得越慢(扩展性不好),读操作象zookeeper那样从本地读取。zookeeper中切换server节点,不允许切到更低版本的server,这点在web上很有用。你总是要看更新的状态,不能刷新一下回到过去的状态。mongodb的java driver似乎没有做这个工作。

对Primary-backup分布式数据库分布式一致性的猜想的更多相关文章

  1. ****** 二十八 ******、软设笔记【数据库】-分布式数据库、特点、数据存储、DBMS组成

    分布式数据库    一.分布式数据库        分布式数据库由一组数据组成,这些数据物理上分布在计算机网络的不同结点(场地)上,逻辑上是属于同一个系统.每个结点可以执行局部应用,也能通过网络通信子 ...

  2. 全球分布式数据库:Google Spanner(论文翻译)

    本文由厦门大学计算机系教师林子雨翻译,翻译质量很高,本人只对极少数翻译得不太恰当的地方进行了修改. [摘要]:Spanner 是谷歌公司研发的.可扩展的.多版本.全球分布式.同步复制数据库.它是第一个 ...

  3. 从NoSQL到NewSQL,谈交易型分布式数据库建设要点

    在上一篇文章<从架构特点到功能缺陷,重新认识分析型分布式数据库>中,我们完成了对不同"分布式数据库"的横向分析,本文Ivan将讲述拆解的第二部分,会结合NoSQL与Ne ...

  4. 分布式数据库对比评测(Es,mongodb,redis)基础知识篇

    前言 我建议大家看下这个,否则后面你不知道我在说什么. 1.ES数据库相关概念 啥是Es,说白了就是支持文档搜索的分布式数据库,专门方便搜索的,GITHUB京东现在都在用. 1.ES的数据库存放在哪里 ...

  5. 分布式数据库中间件 MyCat | 分库分表实践

    MyCat 简介 MyCat 是一个功能强大的分布式数据库中间件,是一个实现了 MySQL 协议的 Server,前端人员可以把它看做是一个数据库代理中间件,用 MySQL 客户端工具和命令行访问:而 ...

  6. 分布式数据库的四分结构设计 BCDE

    首先,对关系型数据库的表进行四种分类定义: Basis 根基,Content 内容, Description 说明, Extension 扩展. Basis:Baisis 表是唯一的,为了实现标准而得 ...

  7. 分布式数据库中的Paxos 算法

    分布式数据库中的Paxos 算法 http://baike.baidu.com/link?url=ChmfvtXRZQl7X1VmRU6ypsmZ4b4MbQX1pelw_VenRLnFpq7rMvY ...

  8. Distributed4:SQL Server 分布式数据库性能测试

    我使用三台SQL Server 2012 搭建分布式数据库,将一年的1.4亿条数据大致均匀存储在这三台Server中,每台Server 存储4个月的数据,Physical Server的配置基本相同, ...

  9. 云时代的分布式数据库:阿里分布式数据库服务DRDS

    发表于2015-07-15 21:47| 10943次阅读| 来源<程序员>杂志| 27 条评论| 作者王晶昱 <程序员>杂志数据库DRDS分布式沈询 摘要:伴随着系统性能.成 ...

随机推荐

  1. sql server 2005中IMAGE类型的BUG问题

    目的:在sql server 2005数据库上筛选出那些有照片的员工 由于客户之前的数据库是sql server 2000,定义的photo字段的数据类型为image, 在sql 2005数据库上,用 ...

  2. 合泰 HT66F30 定时器初始化

    #define TM0_RUN (0<<7) //TM0运行 #define TM0_PAUST (1<<7) //TM0暂停 #define TM0_DIV4 (0<& ...

  3. Ellipse常用快捷键

    Ctrl+m:视窗大小变化 Ctrl+F6:在打开的文件件进行切换 Ctrl+F7:在资源窗口间切换Ctrl+F8:在各种模式下进行切换 Ctrl+e:选择某个打开的文件Shift+home:整行选取 ...

  4. [RxJS] Creation operators: from, fromArray, fromPromise

    The of() operator essentially converted a list of arguments to an Observable. Since arrays are often ...

  5. [Javascript] Introducing Reduce: Common Patterns

    Learn how two common array functions - map() and filter() - are syntactic sugar for reduce operation ...

  6. sql为了实现转换的行列

    全名 学科 成绩 牛芬 语文 81 牛芬 数学 88 牛芬 英语 84 张三 语文 90 张三 数学 98 张三 英语 90 (表一) 现有一个表如(表一) 姓名 语文 数学 英语 牛芬 81 88 ...

  7. .bash_profile和.bashrc的区别

    参考资料: http://blog.163.com/wang_hai_fei/blog/static/309020312008728333912/

  8. 关于 gravity与layout_gravity

    区别 gravity与layout_gravity的区别在于: android:gravity是用来设置该view中内容相对于该view组件的对齐方式 android:layout_gravity是用 ...

  9. mongodb的副本集总结

    主节点A.备份节点B.仲裁者C.是否真的需求仲裁者? 需要. 怎样才算大多数表格如下: 怎样才算大多数表格 副本集中的成员总数 副本集中的大多数 1 1 2 2 3 2 4 3 5 3 6 4 7 4 ...

  10. STL 之 vector 用法

    一.头文件 #include<vector> 二.常用方法: // 在这个向量的尾部插入x的考贝,平均时间为常数,最坏时间为O(n): 1: void push_back(const T& ...