MongoDB 进阶模式设计

原文链接：http://www.mongoing.com/mongodb-advanced-pattern-design

12月12日上午，TJ在开源中国的年终盛典会上分享了文档模型设计的进阶技巧，就让我们来回顾一下吧: —————————————————————————————————————————————————————————-

从很久以前，我就开始接触开源产品：从最开始的使用、受益者到后来的贡献者，到现在的热情推广者。现在，我是MongoDB的技术顾问。我的职责是为MongoDB的客户和用户提供MongoDB使用的一些最佳实践，包括模式设计、性能优化和集群部署方案等方面。

今天的话题是进阶模式，所以我假设在坐各位至少是已经对MongoDB有了一些基本的了解。不过每次总有一些同学以为这里有水果吃才坐进来的，所以在这里我简单介绍一下：MongoDB 不是芒果(mango)，它在拉丁文中的原意是巨大的意思。如果用一句话来概括的话，mongo是一个高可用、分布式、无模式的文档数据库。等一下，这里我故意用错了一个词：不是无模式，而是“灵活模式”。如果真的是无模式，今天我就不用站在这里了。没有模式何来模式设计之说。在你开始用mongo做一些 prototype的时候，确实不用考虑太多的模式。MongoDB内存数据库的一些特性，让你在前期不会遇到什么问题。但是一旦涉及到几千万几十亿的数据量，或者是数千数万的并发量，模式设计就是个你必须提前面对的问题。

在我们谈mongo的模式设计之前，我们很有必要来了解一下MongoDB的数据模型。大家都知道，无论你从哪个角度来看，MongoDB都是目前NoSQL，或者说非关系型的数据库中的领头羊。那么，mongo和传统关系数据库的最本质的区别在那里呢？我们说是它的文档模型。

关系模型和文档模型的区别在哪里？

关系模型需要你把一个数据对象，拆分成零部件，然后存到各个相应的表里，需要的是最后把它拼起来。举例子来说，假设我们要做一个CRM应用，那么要管理客户的基本信息，包括客户名字、地址、电话等。由于每个客户可能有多个电话，那么按照第三范式，我们会把电话号码用单独的一个表来存储，并在显示客户信息的时候通过关联把需要的信息取回来。
而MongoDB的文档模式，与这个模式大不相同。由于我们的存储单位是一个文档，可以支持数组和嵌套文档，所以很多时候你直接用一个这样的文档就可以涵盖这个客户相关的所有个人信息。关系型数据库的关联功能不一定就是它的优势，而是它能够工作的必要条件。而在MongoDB里面，利用富文档的性质，很多时候，关联是个伪需求，可以通过合理建模来避免做关联。

虽然MongoDB的模型和关系型截然不同，但是关系型数据库的一些必不可少的功能如动态查询、二级索引、聚合等在MongoDB中也有非常完善的支持。

这里我介绍一下文档模型的优点：

读写效率高-由于文档模型把相关数据集中在一块，在普通机械盘上读数据的时候不用花太多时间去定位磁头，因此在IO性能上有先天独厚的优势；
可扩展能力强-关系型数据库很难做分布式的原因就是多节点海量数据关联有巨大的性能问题。如果不考虑关联，数据分区分库，水平扩展就比较简单；
动态模式-文档模型支持可变的数据模式，不要求每个文档都具有完全相同的结构。对很多异构数据场景支持非常好；
模型自然-文档模型最接近于我们熟悉的对象模型。从内存到存储，无需经过ORM的双向转换，性能上和理解上都很自然易懂。

那么我们如何考虑MongoDB 文档模式设计的基本策略呢？

其实很简单，我们一般建议的是先考虑内嵌，直接按照你的对象模型来设计你的数据模型。如果你的对象模型数量不多，关系不是很复杂，那么恭喜你，可能直接一种对象对应一个集合就可以了。
内嵌是文档模型的特色，可以充分利用MongoDB的富文档功能来享受我们刚才谈到的一些文档模型的性能和扩展性等特性。一般的一对一、一对多关系，比如说一个人多个地址多个电话等等都可以放在一个文档里用内嵌来完成。
但是有一些时候，使用引用则难以避免。比如说，一个明星的博客可能有几十万或者几百万的回复，这个时候如果把comments放到一个数组里，可能会超出16M的限制。这个时候你可以考虑使用引用的方式，在主表里存储一个id值，指向另一个表中的 id 值。使用引用要注意的就是：从性能上讲，一般我们可能需要两次以上才能把需要的数据取回来。更加重要的是：需要把数据存放到两个集合里，但是目前为止MongoDB并不支持跨表的事务性，所以对于强事务的应用场景要谨慎使用。

很多时候我们并不能很好地回答自己的问题，包括刚才的内嵌还是引用的问题。那么这个时候有必要了解一下，MongoDB模式设计的终极原则。MongoDB的模式设计和关系型大不相同，我们说MongoDB是为应用程序设计的，而不是为了存储优化的。如果可以达到最高性能的话，我们甚至可以做一些反范式的东西。接下来我们来看几个比较具体的设计案例，了解一下MongoDB的模式设计思路：

我这里准备了4个比较经典的MongoDB案例，从CMS 内容管理到电商，社交到物联网。由于时间原因我就从第二个开始。

在电商方面MongoDB的应用场景其实蛮多，比如说，大名鼎鼎的京东用mongo来存储过亿的商品信息，另外有一家著名的境外电商从头到尾用的都是MongoDB，包括订单管理等。这里我们就来看一下购物车这个场景。购物车的特点就是单个购物车数据项不会太大，一般来说不会超过100项目。双十一的时候淘宝的购物车里最多就只能放99件商品。在这里我要谢谢我的太太，是她让我知道了这个限制。另外一点就是购物车的数据可能需要过期删除。

我们说文档模型在这种场景会是个很好的选择：

大家看一下下面的参考数据模型，第一点注意我们可以使用MongoDB的TTL 索引来自动清理过期数据。TTL索引可以建立在任意一个时间字段上，在建立索引的时候可以指定文档在过多少时间后会被自动清理掉。第二个大家注意的是什么呢？在这里我们把商品的一些主要信息放到购物车里了，比如说 name,price, quantity，为什么？读一次所有信息都拿到了：价格、数量等等，不需要再去查另一张表。这是一种比较常见的优化手段，用冗余的方式来提供读取性能。

接下来我们看一下使用这种模式的时候如何进行一些购物车的操作。比如说，如果我们想要往购物车里增加一个价值2元的面包，我们可以用下面的update语句。注意$push的用法。$push 类似于javascript的操作符，意思是往数组尾部增加一个元素。

如果需要更新购物车中某个产品的数量，你可以用update语句直接操作数组的某一个元素。在这里我们需要做的是更新item 4567的数量为5。注意 items.$.quanity的使用，这里的$ 表示在查询条件里匹配上的数组元素的序数。

如果需要统计一下在购物车内某个商品的总数，可以使用MongoDB的聚合功能。聚合运算在MongoDB里面是对数据输入源进行一系列的运算。在这里我们做的就是几个步骤是：

$match: 在所有购物车中过滤掉其他商品，只选出id是8910的商品
$unwind: 把items 数组展开，每个数组元素变成一个文档
$group: 用聚合运算 $sum 把每一件商品的数量相加获得总和

下面我们来看一个社交网络的例子。社交app最关键的一些场景就是维护朋友关系以及朋友圈或微博墙等。

对于关系描述，使用文档模型的内嵌数组特性，我们可以很容易地把我关注的用户（following）和关注我的用户表示出来。下例表示TJ我的关注的用户是mandy和bert，而oscar和mandy则在关注我。这种模式是文档模型中最经典的。但是有一个潜在问题就是如果TJ我是一个明星，他们关注我的人可能有千万。一个千万级的数组会有两个问题：1）有可能超出一个文档最大16M的硬性限制； 2） MongoDB数组太大会严重影响性能。

怎么办？我们可以建立一个专门的集合来描述关注关系。这里就是一个内嵌和引用的经典选择。我们希望用内嵌，但是如果数组维度太大，就需要考虑用另外一个集合的方式来表示一对多的关系（用户 1–N 关注者）

另外一个要注意的是关注数，我们在显示关注和粉丝数量的时候，不希望去跑一次count 查询再显示。因为count操作一般来说会比较占资源。通常的做法可以再用户对象里面加两个字段，一个是关注数一个是粉丝数。每次有人关注或者关注别人时候就更新一下。

下面我们来看看比较有趣的微博墙，或者微信朋友圈的实现有什么考量。

在实现微博墙的时候，有两种方式可以考虑：扇出读 或者是扇出写。

扇出读、扇出写的说法是基于社交网络的海量用户、海量数据的应用特征。这些大量的数据往往分布在各个分片服务器上。扇出读是一种比较常规的做法，就是当你需要去获得所有你关注用户的最新更新的时候，你就去到每一个你关注用户的数据区，把最新的一些数据取回来。因为需要去到不同的分片服务器去取，所以叫做扇出读。大家可以想象，这种扇出读的效率不会太高，基本上是最慢的那个服务器的响应时间决定了总体的响应时间。当然，这种方式是比较简单的，不需要特殊处理。

扇出写，我称之为土豪玩法。具体来说就是当发布的时候，一条数据会写多次，直接写到每一个关注你的粉丝的墙上。这样做的好处是当你的粉丝读他自己的微博墙的时候，他只需要去一个地方就可以把所有最新的更新连续取回来。由于一个用户的数据可一般可以存储在同一台服务器上的同一个区域，通过这种方式可以实现快速的读取微博墙数据。代价当然也是很明显：你的写入需求会被放大几十几百倍，存储也是相应的扩大几十几百倍。这个绝对不是关系型数据库的玩法，但是在MongoD 模式设计，这个很正常。只要保证性能，什么事情都做得出来。

下面这个例子，首先是mandy在发消息的时候会写（push）到我的墙上（timeline）来。如果mandy有50个关注者，那么这个写就会有50次，每个关注者一次。

第二条语句就是我打开微博的时候，一条语句，一个地方就可以找到所有我朋友发的状态更新。注意：这里还使用了bucket，这是另外一个控制文档内数组元素个数的有效方法。比如说我们定义bucket 大小是1000的话，超过1000 就把新的数据插入到下一个文档并对bucket 序数递增。

好了，最后我们来看一下物联网的应用场景：

各位还有多少人仍然记得MH370，去年在印度洋消失的客机？在该事故之后，许多人都在疑惑：在当今的技术水平下，为什么我们不能跟踪如此庞大的一个东西？

让我们来看看如果要监控飞机数据有什么样的挑战。飞机上面的数据源众多，光收集位置信息，就需要多个系统协作完成，如ADS-C， EUROCONTROL等等。此外，收集的数据也是各种各样：位置是2D、速度是数值、引擎参数则是多维度的。

另一个挑战就是海量数据。一个三小时的航班，每分钟采集一次，少说点，每次100条数据，那就是每秒1万8千个数据点。按每天100，000航班，一天的数据算下来有18亿条，1.8TB 左右的数据， 21,000 的QPS。从哪个角度来看，这都是个经典的大数据问题。

这个问题在关系型数据库解决的话，比较幼稚的方法就是设计一个超宽的表。所有需要采集的每一个值就是一个列。这种设计的问题比较明显：

容易造成空白浪费，不是每一条记录都包含所有字段值
可能会经常需要改数据库模式。对于海量数据，改一次模式代价巨大。

另一种改良方案是用EAV 设计模式。就是采用一个主表和一个属性值表。在属性值表里存放所有的参数键值对。这样做的好处自然是灵活性：增加新的参数时无需修改模式。但是问题同样存在：用来存储值的那列METRIC_VALUE的字节大小必须定义成所有值的最大值才可以放下所有的参数值。这个可能带来空间浪费，但是更严重的问题是：将不太可能在此字段上建索引，进而影响一些场景的使用。

下面我们来看看文档模型怎么做：这里对于location 、speed 等不同数据类型的字段，在文档模型下可以直接支持。下面的两个文档，第一个文档和第二个文档可以同属一个集合，但是可以有完全不同的字段。 MongoDB对异构数据的支持在这样的场景下有得天独厚的优势。如果我们希望对某一个metric如location建立索引，我们也可以使用mongoDB的稀疏索引 (Sparse Index)仅对有location字段的文档建索引，在不造成索引空间浪费的前提下提高检索效率。当需要增加新的字段的时候，也不需要对模式做任何修改，可以直接就在应用中的JSON模型里添加需要的字段（elevation)。

在IOT这个场景里，我们可以使用一个叫做分桶的设计方式来进行几十倍的性能增长。具体来说就是把采集的数据按小时为一个桶，把每小时的数据聚合到一个文档里。如下面所示，每分钟的值用子文档的一个字段来表示。这样做的好处就是大量减少文档的数量，相应的索引数量也会减少，总体写入IO将会大幅度降低并得到性能提升。

使用这种方式我们还可以把一些统计需要的数值，如每小时的平均值预先就作为一个字段存进去，需要的时候不用现场计算，只要从文档里读出来即可。

小结一下，冗余、扇出写、分桶，这些都是mongodb 的一些常用优化手段。大家可以看到，通过减少额外查询或者关联的需求，通过使用冗余、额外存储的非常规方式，我们希望做到的是性能上的最高提升。

MongoDB 中国团队正在扩张中。希望和一流的、创新的数据库团队一起工作吗？加入我们吧，我们在寻找有开发架构或者数据库相关经验的大牛们加入我们的技术顾问阵营。有兴趣？加微信 tjtang826 私聊吧！

MongoDB 进阶模式设计的更多相关文章

MongoDB更需要好的模式设计及案例赏析
一挑战设计从来就是个挑战. 当我们第一次接触数据库,学习数据库基础理论时,都需要学习范式,老师也一再强调范式是设计的基础.范式是这门课程中的重要部分,在期末考试中也一定是个重要考点.如果我们当年 ...
MongoDB十二种最有效的模式设计【转】
持续关注MongoDB博客(https://www.mongodb.com/blog)的同学一定会留意到,技术大牛Daniel Coupal 和 Ken W. Alger ,从今年 2月17 号开始 ...
关系型数据库与Key-value型数据库Mongodb模式设计对比
MongoDb 相比于传统的 SQL 关系型数据库,最大的不同在于它们的模式设计( Schema Design )上的差别,正是由于这一层次的差别衍生出其它各方面的不同. 我们可以简单的认为关系型数据 ...
分享基于Entity Framework的Repository模式设计（附源码）
关于Repository模式,在这篇文章中有介绍,Entity Framework返回IEnumerable还是IQueryable? 这篇文章介绍的是使用Entity Framework实现的Rep ...
php模式设计之观察者模式
这是我写的<php模式设计>的第五篇.前面的四篇在不断学习不断加深认识,到了今天再看观察者模式,觉得非常容易理解.这也许就是我们积少成多的结果吧.希望还是能够不断进步. 开篇还是从名字说起 ...
php模式设计之适配器模式
在这个有没有对象都要高呼“面向对象”的年代,掌握面向对象会给我们带来意想不到的方便.学编程的小伙伴从开始能写几行代码实现简单功能到后来懂得将一些重复的操作组合起来形成一个“函数”,再到后来将“函数”和 ...
php模式设计之注册树模式
在前两篇单例模式和工厂模式后,终于迎来了最后一个基础的设计模式--注册树模式. 什么是注册树模式? 注册树模式当然也叫注册模式,注册器模式.之所以我在这里矫情一下它的名称,是因为我感觉注册树这个名称更 ...
php模式设计之工厂模式
承接上篇php模式设计之单例模式,(虽然好像关系不大).今天讲述第二种基础的模式设计——工厂模式. 那么何为工厂模式? 从名字来看,似乎看不出什么端倪.工厂模式,和生产有关?还是和生产流程有关?难道 ...
php模式设计之单例模式
模式设计是什么?初学者一开始会被这高大上的名称给唬住.而对于有丰富编程经验的老鸟来说,模式设计又是无处不在.很多接触的框架就是基于各种模式设计形成的. 简单说,在写代码的过程中一开始往往接触的是面向过 ...

随机推荐

深入理解javascript选择器API系列第三篇——HTML5新增的3种selector方法
前面的话尽管DOM作为API已经非常完善了,但是为了实现更多的功能,DOM仍然进行了扩展,其中一个重要的扩展就是对选择器API的扩展.人们对jQuery的称赞,很多是由于jQuery方便的元素选择器 ...
Y组合子
Y组合子 Y组合子的用处作者:王霄池链接:https://www.zhihu.com/question/21099081/answer/18830200来源:知乎著作权归作者所有.商业转载请联系作者 ...
oracle 创建表空间与创建用户与分配用户权限
创建一个表空间名为ABC create tablespace "ABC" //貌似要大写 datafile 'D:\oracle\TBSPACES\ABC.dbf' / ...
深入解析ES6 更易于继承的类语法的使用
和其它面向对象编程语言一样,ES6 正式定义了 class 类以及 extend 继承语法糖,并且支持静态.派生.抽象.迭代.单例等,而且根据 ES6 的新特性衍生出很多有趣的用法. 一.类的基本定义 ...
部署kube-prometheus，添加邮件报警
这个项目出自coreos,已经存在很久了,第一次尝试的时候还很简陋,现在完善了很多. 项目提供了一键部署脚本,跑起来并不难,不过个人感觉要真正掌握并灵活使用并不是很容易. kube version: ...
【BZOJ 3451】Tyvj1953 Normal 思维题+期望概率+FFT+点分治
我感觉是很强的一道题……即使我在刷专题,即使我知道这题是fft+点分治,我仍然做不出来……可能是知道是fft+点分治限制了我的思路???(别做梦了,再怎样也想不出来的……)我做这道题的话,一看就想单独 ...
SQL Server 行列相互转换命令：PIVOT和UNPIVOT使用详解
一.使用PIVOT和UNPIVOT命令的SQL Server版本要求 1.数据库的最低版本要求为SQL Server 2005 或更高. 2.必须将数据库的兼容级别设置为90 或更高. 3.查看我的数 ...
MySQL的DML常用语法格式
MySQL的DML常用语法格式作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们知道MySQL的查询大致分为单表查询,多表查询以及联合查询.多表查询,顾名思义,就是查询的结果可能 ...
Java基础-配置开发环境-安装JDK
Java基础-配置开发环境-安装JDK 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.计算机基础知识 1>.计算机的组成计算机有硬件与软件组成. 2>.硬件: 硬 ...
Sql Server数据库小知识点总结
把我在开发时候遇到的一点小知识持续更新在这里~ 1.where条件时常变 where UserID='1' 这里的UserID呢,它的值是经常在变化的,有时候要查2,有时候要查3的,有时候要查全部人! ...

MongoDB 进阶模式设计

MongoDB 进阶模式设计的更多相关文章

随机推荐

热门专题