MongoDB 复制集里,主备节点间通过 oplog 来同步数据,Priamry 上写入数据时,会记录一条oplog,Secondary 从 Primary 节点拉取 oplog并重放,以保证最终存储相同的数据集。

oplog 主要特性

  • 幂等性,每一条oplog,重放一次或多次,得到的结果是一样的;为实现幂等 mongodb 对很多操作进行来转换,比如将 insert 转换为 upsert、$inc 操作转换为 $set等等。
  • 固定大小(capped collection),oplog 使用固定空间存储,当空间满了时,会自动删除最旧的文档。
  • oplog 按时间戳排序,并且在所有节点上顺序保持一致

本文主要介绍MongoDBD 如何保证 oplog 有序存储并读取,关于 oplog 扩展阅读

并发写 oplog 时,如何加锁?

Primary 上写入文档时,首先对写入的 DB 加写意向锁,再对集合加写意向锁,然后调用底层引擎接口写入文档,对 local 数据库加写意向锁,对oplog.rs集合加写意向锁,写入 oplog。关于MongoDB 多层级意向锁的机制,参考官方文档

Write1

  1. DBLock("db1", MODE_IX);
  2. CollectionLock("collection1", MODE_IX);
  3. storageEngine.writeDocument(...);
  4. DBLock("local", MODEX_IX);
  5. CollectionLock("oplog.rs", MODEX_IX);
  6. storageEngine.writeOplog(...);

Write2

  1. DBLock("db2", MODE_IX);
  2. CollectionLock("collection2", MODE_IX);
  3. storageEngine.writeDocument(...);
  4. DBLock("local", MODEX_IX);
  5. CollectionLock("oplog.rs", MODEX_IX);
  6. storageEngine.writeOplog(...);

如何保证Primar上oplog 顺序?

基于上述并发策略,在多个写并发的情况下,如何保证 oplog 顺序?

oplog是一个特殊的 capped collection,文档没有_id字段,但包含一个 ts(时间戳字段),所有 oplog 的文档按照 ts 顺序存储。如下是几条 oplog 的例子。

  1. { "ts" : Timestamp(1472117563, 1), "h" : NumberLong("2379337421696916806"), "v" : 2, "op" : "c", "ns" : "test.$cmd", "o" : { "create" : "sbtest" } }
  2. { "ts" : Timestamp(1472117563, 2), "h" : NumberLong("-3720974615875977602"), "v" : 2, "op" : "i", "ns" : "test.sbtest", "o" : { "_id" : ObjectId("57bebb3b082625de06020505"), "x" : "xkfjakfjdksakjf" } }

以 wiredtiger 为例,在写入 oplog 文档时,会以 oplog 的 ts 字段作为 key、文档内容作为 value,写入一条 KV 记录,wiredtiger 会保证存储(btree 或 lsm 的方式都能保证)的文档按 key 来排序,这样就解决『文档按 ts 字段顺序存储』的问题。但仍然存在并发乱序的问题,例如:

并发写入多条 oplog时,时间戳分别是ts1、ts2、ts3 (ts1 < ts2 < ts3 ),ts1、ts3先成功了,这时Secondary 拉取到这2条 oplog,然后 ts2才写成功,然后 Secondary 再拉取到ts2,也就是说 Secondary 看到的 oplog 顺序为ts1、ts3、ts2,就会出现 oplog 乱序的问题。

MongoDB(wiredtiger 引擎)的解决方案是通过在读取时进行限制,保证Secondary 节点看到一定是顺序的,具体实现机制如下:

  1. 写入 oplog前,会先加锁给 oplog 分配时间戳,并注册到未提交列表里

    1. lock();
    2. ts = getNextOpTime(); // 根据当前时间戳 + 计数器生成
    3. _uncommittedRecordIds.insert(ts);
    4. unlock();
  2. 正式写入 oplog,在写完后,将对应的 oplog 从未提交列表里移除

    1. writeOplog(ts, oplogDocument);
    2. lock();
    3. _uncommittedRecordIds.erase(ts);
    4. unlock();
  3. 在拉取 oplog 时

    1. if (_uncommittedRecordIds.empty()) {
    2. // 所有 oplog 都可读
    3. } else {
    4. // 只能到未提交列表最小值以前的 oplog
    5. }

通过上述规则,最终保证Primary 上 oplog 按 ts 字段存储,并且 Secondary能按序读取所有 oplog。

如何保证 Secondary 上 oplog 顺序与Primary 一致?

Secondary 把 oplog 拉取到本地后,会多线程重放,最后在一个线程里将拉取到的 oplog原样写入本地的 local.oplog.rs集合,这样就保证 Secondary oplog 最终与 Primary 上完全相同。

作者简介

张友东,阿里巴巴技术专家,主要关注分布式存储、Nosql数据库等技术领域,先后参与TFS(淘宝分布式文件系统)Redis云数据库等项目,目前主要从事MongoDB云数据库的研发工作,致力于让开发者用上最好的MongoDB云服务。

转载自:http://www.mongoing.com/archives/3177

MongoDB 如何保证 oplog 顺序?的更多相关文章

  1. 转:TCP为什么要3次握手和4次挥手时等待2MSL、 TCP如何保证消息顺序以及可靠性到达

    关于tcp三次握手.四次挥手可以看这里:TCP与UDP的差别以及TCP三次握手.四次挥手 1.TCP为甚要3次握手? 在谢希仁著<计算机网络>第四版中讲“三次握手”的目的是“为了防止已失效 ...

  2. MongoDB journal 与 oplog,究竟谁先写入?

    MongoDB journal 与 oplog,谁先写入?最近经常被人问到,本文主要科普一下 MongoDB 里 oplog 以及 journal 这两个概念. journal journal 是 M ...

  3. MongoDB journal 与 oplog,究竟谁先写入?--转载

    MongoDB journal 与 oplog,谁先写入?最近经常被人问到,本文主要科普一下 MongoDB 里 oplog 以及 journal 这两个概念. journal journal 是 M ...

  4. Java中如何保证线程顺序执行

    只要了解过多线程,我们就知道线程开始的顺序跟执行的顺序是不一样的.如果只是创建三个线程然后执行,最后的执行顺序是不可预期的.这是因为在创建完线程之后,线程执行的开始时间取决于CPU何时分配时间片,线程 ...

  5. mongodb:修改oplog.rs 的大小size

    其内容字段说明: ts:操作日志的timestamp t: 未知? h:操作唯一随机值 v:oplog.rs的版本 op:操作类型: i:insert操作 u:update操作 d:delete操作 ...

  6. 单台MongoDB实例开启Oplog

    背景 随着数据的积累,MongoDB中的数据量越来越大,数据分析团队从数据库中抽取变化数据(假如依据栏位createdatetime,transdatetime),越来越困难.我们知道MongoDB的 ...

  7. MongoDB journal与oplog解惑

    journal journal 是 MongoDB 存储引擎层的概念,目前 MongoDB主要支持 mmapv1.wiredtiger.mongorocks 等存储引擎,都支持配置journal. M ...

  8. 云数据库MongoDB版清理oplog日志和compact命令详解

    1.问题描述: 今天看到公司mongodb的oplog有点大,看到云数据库MongoDB版日志清理策略. MongoDB数据库在长期频繁地删除/写入数据或批量删除了大量数据,将产生很多物理空间碎片. ...

  9. 自己写的保证js顺序加载的方法

    var arr =["test1.js","test2.js","test3.js"] loadScripts:function(arr){ ...

随机推荐

  1. Django框架学习易错和易忘点

    一.get在几处的用法 1.获取前端数据 request.POST.get('xxx') #当存在多个值时,默认取列表最后一个元素:所以当存在多个值时,使用getlist 2.获取数据库数据 mode ...

  2. HTML5 Notification

    H5的Notification特性 Web桌面通知 Notification API的通知接口用于向用户配置和显示桌面通知. 生产环境仅支持https下使用:否则会被默认禁止.开发环境可以在local ...

  3. Luogu5290 [十二省联考2019] 春节十二响 【贪心】【堆】

    题目分析: 对于一个根,假设我们对每个子树分别求出了一种答案,那么怎么合并答案是最小的呢? 首先考虑这些答案里面最大的那个数字,它肯定要融合其它组里面的最大数字.以此类推 所以最好的合并方式是,每个子 ...

  4. DO、VO、DTO 区别

    DTO:数据传输对象,主要用于外部接口参数传递封装,接口与接口进行传递使用. VO:视图对象,主要用于给前端返回页面参数使用. DO:数据对象,主要用于数据库层传递. DTO转DO:接口接收参数将参数 ...

  5. openssl 证书cert与key合并pfx

    openssl pkcs12 -export -out server.pfx -inkey server.key -in server.crt

  6. syslog 日志

    syslog日志是系统日志的一种,可以存放在本地也可以发送到syslog日志服务器, 但是syslog日志由于的格式不统一,在日常工作中审计syslog日志是一种很麻烦的 事情.不过在2001出现了一 ...

  7. 关于Echarts柱状图点击事件的实现方法

    开发过程中,我们经常会碰到这样的需求:在柱状图上,点击某条柱形,调用相应的方法或跳转相应的界面 接下来就详细介绍如何实现柱状图的点击事件,其中maChart是绘图对象 一.简单的点击事件 myChar ...

  8. js实现图片的Blob base64 ArrayBuffer 的各种转换

    一.相关基础知识 构造函数 FileReader() 返回一个新构造的FileReader 事件处理 FileReader.onabort  处理abort事件.该事件在读取操作被中断时触发. Fil ...

  9. 如何使用.gitignore文件删除掉已经提交的文件

      如何使用.gitignore文件删除掉已经提交的文件 2018.06.06 22:13:38字数 96阅读 116 如果你的文件已经提交,而此时你才发现忘了添加.gitignore文件,不用担心, ...

  10. Python面向对象Day1

    一.面向对象初始 面向过程变成属于流水式 面向对象是一种思想 结构上理解面向对象:两部分 class A: # 类 name = '小明' # 静态属性,静态变量,静态字段,或者属性.变量.字段 de ...