Ceph Monitor的数据管理
转自:https://www.ustack.com/blog/ceph-monitor-2/
Monitor管理了Ceph的状态信息,维护着Ceph中各个成员的关系,这些信息都是存放在leveldb中的,但是这些数据是如何生成的?又是如何消亡的。本文旨在展现Ceph monitor中数据的生老病死,带领读者走入Monitor的世界。
数据概览
首先我们分析的版本是0.94.7的版本,也就是目前Hammer最新的版本。对于leveldb中的数据,我们需要来一个感性的认识,请看下面数据,由于数据太多这里仅仅列出了key:
可以看到这里有paxos,有monmap,osdmap,mdsmap,auth,logm,和上一篇(Ceph Monitor基础架构与模块详解)中的Monitor的架构图很像。paxos记录了每次propose的value,具体可以这么来看:
以paxos:1869为例,paxos为prefix,1869为key。可以将不同的prefix当做不同的表,里面的key是主键,其存储的值是value,这里paxos:1869存储的就是Monitor一致同意的1869次决议。所有的状态的变化都是从这个决议里产生的。
那我们有什么方式可以查看决议的内容呢?我们可以通过如下命令先将数据从leveldb中导出来:
然后使用ceph-dencoder工具来查看:
从上面的数据输出我们可以得出一下几点:
- paxos:1869存储的是MonitorDBStore::Transaction序列化后的数据
- Monitor的Transaction和Osd的Transaction类似,都封装了多个op的操作
- log通过paxos来保持一致性,所以这里有,同理osdmap,monmap,pgmap等都应该Transaction里
- 这里仅仅是paxos决议的值,但是上面有osdmap的key,那么osdmap:num的val应该也是和paxos里相应的内容一样
- Paxos应该有Trim机制,因为如果数据一致这么存下去,不是办法
Paxos决议流程
到这里需要讲一下Paxos算法,因为Monitor里面数据的更新操作都是通过Paxos决议来完成的,也就是说Paxos掌管着Monitor数据的“生”。
Paxos解决了什么问题?
Paxos算法解决了分布式环境中一个不变量的值的一致性问题。
解决了一个值的问题有用吗?
我们的决议号就是这个变量。里面存放了决议的内容。决议内容通过之后,就把其写入数据库。我们可以将无数内容放到这个变量的值里面。有什么放不进去的吗?没有!当我们能够在分布式环境中确定一个变量的值的时候,已经足够我们使用了。
为什么是一个不变量的值?
这个不变量可以理解为C语言中的常量,一旦确定之后就不能改变,这里的不变就是一旦决议通过之后,无论发生什么情况,决议n的值还是当初通过的那个值。
但是我们怎么用呢?都不变了,我们用它干嘛?其实从上面的解释就已经可以看出来,我们说了是一个不变量的值,并不是一直就是一个变量,决议n的值确定了之后,我们可以再决议n+1的值。Ceph也正是这么用的,从上面的list出来的内容就可以大致了解。
Monitor更新一个值的流程:
1、Leader
1)设置new_value =v,v中值就是我们上面看到的paxos:1869中的值,都是kv。
2)将自己加入到同意者集合。
3)生成MonitorDBStore::Transaction, 以paxos为前缀,last_commited+1 的key来将v写入到leveldb中,同时更新pending_v,和pending_pn。
4)将new_value, last_commited和accepted_pn发送给quorum中的所有成员。
2、Peon
1)判断自己的accepted_pn和Leader发送过来的accepted_pn是否相等,如果小于就忽略,认为是旧一轮的决议。
2)判断自己last_commited是否和leader发送过来的相关,如果不相关,就是出现了不一致,直接assert。
3)同Leader中的3)。
4)将accpted_pn 和 last_commited发送给Leader。
3、Leader
1)判断Peon发送过来的pn是不是和自己的accepted_pn一致,如果不等可能有则返回。
2)判断last_commited,如果Peon发送过来的last_commited比last_commted -1 小,则认为是旧一轮的消息,丢弃。
3)判断Peon是否在同意者结合,如果不在就加入,如果在,说明一个Peon发送了两次accept消息,Leader直接assert。
4)当接受者结合和quorum结合一样的时候,也就是大多数人都同意了,Leader提交决议。
5)更新leveldb中的last_commited为last_commited + 1。
6)将new_value中的数据都展开封装成transaction,然后写入,插入回调。
7)当Leader完成本地的提交之后,调用回调向quorum中的所有成员发送commit消息 。
4、Peon
1)在接收到commit消息之后,进行内部提交。
这里有几点需要说明的是:
在决议的过程中其实提交了Leader提交了两次,一次是直接将决议当做bl写入paxos的prefix中,另一次是将bl解析出来(bl里的内容都是封装的小的op操作)在写入bl里封装的prefix的库中。
所有的update操作的请求都会路由到Leader,也就是说无论你有3个,或者5个,在处理update请求的时候只会是1个。
OSDMap的管理
这里我们以OSDMap为例,来看看它是如何从生成到进库的。
当有osd up或者down的时候,monitor会感知到。当消息走到prepare_update的时候,会在各自的prepare函数经过各种处理,最终会将更新纪录到pending_inc中。因为OSDMap的更新全纪录在pending_inc这个变量里。然后在dispatch中,会判断是不是要走决议流程,如果走了决议流程之后会首先将pending_inc中的内容encode进transaction,这里调用了一个很重要的函数encode_pending。在这个函数里将pending_inc中该有的内容都塞进了transaction。当有了这个transaction之后,就是会走我们上面讲的Paxos决议流程了。最终这些决议会持久化到leveldb中。
从上面我们可以看到Monitor的架构,这里虽然讲的是OSDMonitor怎么处理消息的,但是MDSMonitor,MonMapMonitor都是一样的。Update操作改变自己的pending_inc,然后在encode_pending的时候生成transaction,然后就是走决议流程。
同样可以通过以下命令将osdmap拿出来看看:
总结
本文首先通过工具从leveldb中将monitor的数据拿出来,大概了解了Monitor的数据内容,然后分析了生成数据的流程–Paxos决议,最后使用一个简单的例子OSDMap来讲述了OSDMap数据是如何生成和存储的。希望本文能够帮助读者了解Mon,从而对Ceph有更深刻的理解,以便大家开发出更好的产品,以及对客户更优质的服务。
Ceph Monitor的数据管理的更多相关文章
- Ceph monitor故障恢复探讨
1 问题 一般来说,在实际运行中,ceph monitor的个数是2n+1(n>=0)个,在线上至少3个,只要正常的节点数>=n+1,ceph的paxos算法能保证系统的正常运行.所以,对 ...
- Ceph Monitor基础架构与模块详解
转自:https://www.ustack.com/blog/ceph-monitor/ Ceph rados cluster离不开Monitor,如果没有Monitor,则Ceph将无法执行一条简单 ...
- Ceph:一个开源的 Linux PB 级分布式文件系统
探索 Ceph 文件系统和生态系统 M. Tim Jones , 自由作家 简介: Linux®持续不断进军可扩展计算空间,特别是可扩展存储空间.Ceph 最近才加入到 Linux 中令人印象深刻的 ...
- Ceph 概述和理论
1.1 Ceph概述 官网地址:https://docs.ceph.com/docs/master/ 1.Ceph简介 概述:Ceph是可靠的.可扩展的.统一的.分布式的存储系统.同时提供对象存储RA ...
- Ceph 架构以及原理分析
一.架构 Ceph在一个统一的系统中独特地提供对象,块和文件存储. Ceph高度可靠,易于管理且免费. Ceph的强大功能可以改变您公司的IT基础架构以及管理大量数据的能力. Ceph提供了非凡的可扩 ...
- 全能成熟稳定开源分布式存储Ceph破冰之旅-上
@ 目录 概述 定义 传统存储方式及问题 优势 生产遇到问题 架构 总体架构 组成部分 CRUSH算法 数据读写过程 CLUSTER MAP 部署 部署建议 部署版本 部署方式 Cephadm部署 前 ...
- 理解 OpenStack + Ceph (3):Ceph RBD 接口和工具 [Ceph RBD API and Tools]
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
- 解析Ceph: Snapshot
经常有开发者在邮件列表中会问到Ceph Snapshot的实现方式,受限于目前有限的实现文档和复杂的代码结构和代码量,弄清楚Ceph Snapshot并不是一件容易的事.正好最近在重构Ceph存储引擎 ...
- ceph理论及部署配置实践
prefaces: ceph installation(quick)1,preflight(ins ceph-deploy repo tools)2,ceph storage cluster quic ...
随机推荐
- Python(数据库之表操作)
一.修改表 1. 修改表名 ALTER TABLE 表名 RENAME 新表名; #mysql中库名.表名对大小写不敏感 2. 增加字段 ALTER TABLE 表名ADD 字段名 数据类型 [完整性 ...
- mysql 建立表之间关系 一对一 练习1
创建db5数据库 create database db5 charset=utf8; use db5; 例一:一个用户只有一个博客 用户表: id name 1 mike 2 alex 3 jack ...
- [今日干货]一个吸粉效果也不错的APP
最近陌陌被封很厉害,今天给大家分享一个吸粉效果也不错的APP——悦跑圈,日吸几百粉没问题~ 1.首先下载APP悦跑圈,用手机号码注册. 2.改写资料和头像,最好用一个女性头像,真实点的,不是网图,增加 ...
- JS的深拷贝
var obj = { name: "wuyongyu", age: 18 } 第一种方式: function deepClone(obj){ // 判断传入的数据类型 - 数组或 ...
- 17届计算机应届生秋季校招分享 to Tomorrow
首先自我介绍一下,本人来自普通二本院校,计算机科学与技术专业,在校有一到两年asp.net项目经验,花了两个星期左右的时间转向java.现将此次的求职经历,分为三阶段,分享给大家. First Sta ...
- Tornado的基本知识
Tornado是FriendReed使用的可扩展的非阻塞式的web服务器及其相关工具的开源版本. 这个框架看起来有些像web.py或者Google的webapp,不过为了能有效利用非阻塞服务器环境,这 ...
- c3p0连接不上sql server
1.首先判断sqlserver是否安装成功 2如果sqlserver正常运行 可能是因为没有打开1433端口,按以下步骤设置tcp/ip enabled 打开之后再重新启动sql server服务,按 ...
- TCP/IP 网络结构
- 安装三大浏览器驱动driver
1.chromedriver 下载地址:https://code.google.com/p/chromedriver/downloads/list 2.Firefox的驱动geckodriver 下载 ...
- SSDB系列文章推荐
1. 下载和安装: http://ssdb.io/docs/zh_cn/install.html 2. SSDB 文档 http://ssdb.io/docs/zh_cn/index.html ...