mogodb(1) 简介

1 引言

NoSQL,全称是“Not Only Sql”，指的是非关系型的数据库。这类数据库主要有这些特点：非关系型的、分布式、开源的、水平可扩展的。原始目的是为了大规模web应用，这场全新的数据库革命运动早期就有人提出，发展至2009年趋势越发高涨。非关系型的数据存储通常的应用如：模式自有、支持简易复制、简单的API、最终的一致性（非ACID）、大容量数据等。它的种类繁多，如列式数据库（Hadoop/Hbase、Cassandra、Hypertable、Amazon SimpleDB等）、文档型数据库（MongoDB、CouchDB、OrientDB等）、键值数据库（Azure Table Storage、MEMBASE、Redis、Berkeley DB、MemcacheDB等）、图形数据库（Neo4J、Infinite Graph、Sones、Bigdata等）、面向对象数据库（db4o、Versant、Objectivity、Starcounter等）、网格及云数据库（GigaSpaces、Queplix、Hazelcast等）、XML数据库（Mark Logic Server、EMC Documentum xDB、BaseX、Berkeley DB XML等）、多值数据库（U2、OpenInsight、OpenQM等）及其他非关系型数据库（如FileDB）等。

MongoDB属于NoSQL数据的一种，是由10gen公司提供的一个开源的、模式自由的、面向文档存储的、分布式的数据库，是一个介于关系数据库和非关系数据库之间的产品。由C++语言编写，旨在为Web应用提供可扩展的高性能数据存储解决方案。他支持的数据结构非常松散，是类似Json的Bson格式，因此可以存储比较复杂的数据类型。

他可以运行在Solaris、Linux、Windows和OSX平台上，支持32位和64位应用，其中在32位应用中单个数据库最大容量为2G，在64位应用中存储容量大小只与实际存储空间大小有关，并且提供了Java、C#、PHP、C、C++、JavaScript、Python、Ruby、Perl等多种语言的驱动程序，最新的生产版本为2.0，官方下载地址：http://www.mongodb.org/downloads。目前正在使用他的网站和企业已超过了100家，如视觉中国、大众点评网、淘宝网、盛大、Foursquare、Wordnik、OpenShift、SourceForge、Github等。

随着企业数据不断积累和增加及Web2.0应用不断向前发展，已进入了个人信息时代，对于大中型企业来说，可能每天将产生大量的数据，来之于各类系统，如各类文档(OA文档、项目文档等)、设计图纸、高清图片、视频等，对于员工来说，更关心的是个人信息方面的存储和计算，当这些信息量足够大时，想要实时提取或分析数据，传统集中式方式难以满足这方面的需求，因此采用分布式的存储和计算成为必然的选择，一方面主要解决海量存储问题，另一方面解决海量计算问题。采用MongoDB的数据库技术能有效地解决分布式方面的应用，本文重点分析MongoDB在海量数据存储方面的应用。

2 概述

2.1 MongoDB的主要特点

（1）文件存储格式为Bson，使用易于掌握和理解的Json风格语法。相对Json来说，Bson拥有更好的性能，主要表现为更快的遍历速度、操作更简易、增加了额外的数据类型。

（2）模式自由，支持嵌入子文档和数组，无需事先创建数据结构，属于逆规范化的数据模型，有利于提高查询速度。

（3）动态查询，支持丰富的查询表达式，使用Json形式的标记，可轻易查询文档中内嵌的对象和数组及子文档。

（4）完整的索引支持，包括文档内嵌对象和数据，同时还提供了全文索引方式，MongoDB的查询优化器会分析查询表达式，并生成一个高效的查询计划。

（5）使用高效的二进制数据存储，适合存储大型对象（如高清图片、视频等）。

（6）支持多种复制模式，提供冗余及自动故障转移。支持Master-Slave、Replica Pairs/Replica Sets、有限Master-Master模式。

（7）支持服务端脚本和Map/Reduce，可以实现海量数据计算，即实现云计算功能。

（8）性能高、速度快。在多数场合，其查询速度对于MySQL要快的多，对于CPU占用非常小。部署很简单，几乎是零配置。

（9）自动处理碎片，支持自动分片功能实现水平扩展的数据库集群，可以动态添加或移除节点。

（10）内置GridFS，支持海量存储。

（11）可通过网络访问，采用高效的MongoDB网络协议，在性能方面要优于http或Rest协议。

（12）第三方支持丰富，MongoDB社区活跃，越来越多的公司和网站在生产环境中使用MongoDB进行技术架构优化，同时由10gen公司官方提供强大技术支持。

2.2 MongoDB的适用场景

MongoDB的主要目标是在键/值存储方式（提供了高性能和高度伸缩性）以及传统的RDBMS系统（丰富的功能）架起一座桥梁，集两者的优势于一身。

（1）网站数据：MongoDB非常适合实时的插入，更新与查询，并具备网站实时数据存储所需的复制及高度伸缩性。

（2）缓存：由于性能很高，MongoDB也适合作为信息基础设施的缓存层。在系统重启之后，由MongoDB搭建的持久化缓存层可以避免下层的数据源过载。

（3）大尺寸，低价值的数据：使用传统的关系型数据库存储一些数据时可能会比较昂贵，在此之前，很多时候程序员往往会选择传统的文件进行存储。

（4）高伸缩性的场景：MongoDB非常适合由数十或数百台服务器组成的数据库。MongoDB的路线图中已经包含对MapReduce
引擎的内置支持。

（5）用于对象及JSON数据的存储：MongoDB的Bson数据格式非常适合文档化格式的存储及查询。

2.3 MongoDB的体系结构

MongoDB是由一系列物理文件（数据文件，日志文件等）的集合与之对应的逻辑结构（集合、文档等）构成的数据库。

MongoDB的逻辑结构实际是一种层次结构，由文档（document，相当于关系数据库中的row）、集合（collection，相当于关系数据库中的table）、数据库（database，相当于关系数据库中的database）这三部分组成。

一个MongoDB实例支持多个数据库。在MongoDB内部，每个数据库都包含一个.ns文件和一些数据文件，采用预分配空间的机制，始终保持额外的空间和空余的数据文件，从而有效避免了由于数据暴增带来的磁盘压力过大问题。每个预分配的文件都用0进行填充，数据文件每新分配一次，他的大小都会是上一个数据文件大小的2倍，每个数据文件最大为2G。

2.4 MongoDB与MS SQL Server的语句对照

MongoDB提供了功能丰富的查询表达式，可以实现绝大多数关系数据库的sql语句功能，以表employee(id,name,age)举例对照说明，如下图1所示。

图1 MongoDB与MS SQL Server语句对照

3 过程分析与测试

3.1 GridFS概述

由于MongoDB中的Bson对象大小是有限制的，在1.7版本以前单个Bson对象最大容量为4M，1.7版本以后单个Bson对象最大容量为16M[5]。对于一般的文件存储，单个对象的4到16M的存储容量能够满足需求，但无法满足对于一些大文件的存储，如高清图片、设计图纸、视频等，因此在海量数据存储方面，MongoDB提供了内置的GridFS，可以将一个大文件分割成为多个较小的文档，可以指定文件分块标准，对用户是透明的。GridFS使用两个数据结构来存储数据：files（包含元数据对象）、chunks（包含其他一些相关信息的二进制块）。为了使多个GridFS命名为一个单一的数据库，文件和块都有一个前缀，默认前缀为fs，用户有权改变这个前缀。

GridFS对Java、C#、Perl、PHP、Python、Ruby等程序言语均支持，且提供了良好的API接口。

3.2 基于GridFS的海量数据存储测试

本文主要采用MongoDB最新版2.0及官方提供的C#语言驱动进行测试，C#驱动下载地址：https://github.com/mongodb/Mongo-csharp-driver。

MongoDB在bin目录下提供了一系列有用的工具，可以很方便的进行运维管理：

（1）bsondump：将Bson格式的文件转储为Json格式的数据。

（2）mongo：客户端命令行工具，支持js语法。

（3）mongod：数据库服务端，每个实例启动一个进程，可以fork为后台运行。

（4）mongodump：数据库备份工具。

（5）mongorestore：数据库恢复工具。

（6）mongoexport：数据导出工具。

（7）mongoimport：数据导入工具。

（8）mongofiles：GridFS管理工具，可实现二进制文件的存取。

（9）mongos:分片路由，如果使用了sharding功能，则应用程序连接的是mongos，而非mongod。

（10）mongosniff：这一工具的作用类似于tcpdump，不同的是他只监控MongoDB相关包请求，并且是以指定的可读性的形式输出。

（11）mongostat：实时性能监控工具。

同时有好几个第三方提供的客户端图形工具，如MongoVUE、RockMongo、MongoHub等，方便管理和维护。

GridFS结合自动分片及自动复制技术，可以实现高性能的分布式数据库集群架构，从而进行海量数据存储，如下图2所示。

图2 高性能的分布式数据库集群架构

MongoDB Sharding Cluster需要三种角色：

（1）Shard Server：即存储实际数据的分片，每个Shard可以是一个mongod实例，也可以是一组mongod实例构成的Replica Set。

（2）Config Server：用来存储所有shard节点的配置信息、每个chunk的shard key范围、chunk在各shard的分布情况、该集群中所有DB和collection的sharding配置信息。

（3）Route Process：这是一个前端路由，客户端由此接入，然后询问Config Servers需要到哪个shard上查询或保存记录，再连接相应的shard进行操作，最后将结果返回给客户端，而这一切对客户端是透明的，客户端不用关心所操作的记录存储在哪个shard上。

为了测试方便，下面在同一台物理机器上构建一个简单的Sharding Cluster，如下图3所示。

图3 简单的Sharding Cluster架构图

配置测试环境如下：

模拟2个Shard服务器和1个Config服务器，均运行在本机127.0.0.1上，只是端口不同：

（1）Shard Server1：127.0.0.1：27020。

（2）Shard Server2：127.0.0.1：27021。

（3）Config Server：127.0.0.1：27022。

（4）Route Process：127.0.0.1：27017。

启动相关服务进程：

c:\mongodb 2.0.0\bin>mongod --shardsvr --dbpath "c:\mongodb 2.0.0\db" --port 27020

d:\mongodb 2.0.0\bin>mongod --shardsvr --dbpath "d:\mongodb 2.0.0\db" --port 27021

e:\mongodb 2.0.0\bin>mongod --configsvr --dbpath "e:\mongodb 2.0.0\db" --port 27022

e:\mongodb 2.0.0\bin>mongos --configdb 127.0.0.1:27022

配置Sharding：

(1)e:\mongodb 2.0.0\bin>mongo

(2)use admin

(3)db.runCommand( { addshard : "127.0.0.1:27020", allowLocal : 1,

maxSize:2 , minKey:1, maxKey:10 } )

(4)db.runCommand( { addshard : "127.0.0.1:27021", allowLocal : 1, minKey:100 } )

(5)config =connect("127.0.0.1:27022")

(6)config = config.getSisterDB("config")

(7)ecDocs=db.getSisterDB("ecDocs")

(8)db.runCommand({enablesharding:"ecDocs"})

(9)db.runCommand( { shardcollection : "ecDocs.filedocs.chunks", key : { files_id : 1 } } )

(10)db.runCommand( { shardcollection : "ecDocs.filedocs.files", key : { _id : 1 } } )

以上的ecDocs是指数据库名，filedocs是指用户自定义的GridFS的文件集合名，系统默认文件集合名为fs。

使用官方提供的C#驱动,需要在程序中引用MongoDB.Driver.dllMongoDB.Bson.dll，循环添加同一文件到GridFS示例代码，如下图4所示。

图4 循环添加同一文件到GridFS代码

测试配置环境如下：

操作系统：WindowsXP专业版32位SP3。

处理器(CPU)：英特尔Xeon(至强)W3503@2.40GHz。

内存：3567MB(DDR31333MHz/FLASH)。

硬盘：希捷ST3250318AS(250GB/7200转/分)。

由于本机是32位操作系统，因此单个服务实例只支持GridFS的文件容量大小为0.9G左右，由于采用了两台Shard服务实例，可以支持存储的文件总容量大小为1.8G左右，如果是64位操作系统就没有此限制。

本文主要测试GridFS采用循环插入大容量文件的性能和分片容量大小,测试结果，如下图5所示。

从图5可以看出，第1到3步骤，只添加单个文件时，Shard2并没有产生分片数据，只有测试到步骤4连续添加100个相同文件时Shard2才产生分片数据，并且添加三四百兆的单个文件，只需11秒多就完成了操作，而即使通过文件拷贝方式这么大的文件也至少需要二三十秒才能完成，可见MongoDB在大容量文件存储方面拥有非常高的性能。

通过在客户端的mongo工具输入db.printShardingStatus()命令可以查看详细分片情况，如下图6所示。

从图6可以看出，在shard1中分配了6个chunks，在shard2中分配了7个chunks，分片数据相对还是比较均匀的。

从以上的测试可以得知，采用GridFS可以存储海量数据，并且可以通过廉价服务器进行大规模数据库集群，非常容易扩展部署，程序编码也非常容易，因此能够有效支持云存储的应用，能够满足大规模数据存储的应用需求。

图5 GridFS大容量文件测试结果

图6 GridFS大容量文件分片信息

4 结论

随着企业和个人数据的不断扩大，随着云计算的高速发展，越来越多的应用需要存储海量数据，并且对高并发和处理海量数据提出了更高的要求，传统的关系型数据库对于这些应用场景难以满足应用需求，而作为NoSQL数据库之一的MongoDB数据库能够完全满足和解决在海量数据存储方面的应用，越来越多的大网站和企业选择MongoDB代替Mysql进行存储。

mogodb(1) 简介的更多相关文章

分布式文档存储数据库之MongoDB基础入门
一.MongoDB简介 MongoDB是用c++语言开发的一款易扩展,易伸缩,高性能,开源的,schema free 的基于文档的nosql数据库:所谓nosql是指不仅仅是sql的意思,它拥有部分s ...
MySQL简介及安装
一.DBA工作内容及课程体系二.MySQL课程体系介绍三.DBA的职业素养四.MySQL简介及安装 01 什么是数据? 02 什么是数据库管理系统 03 数据库管理系统种类 04 MySQL发展 ...
[原创]Studio 3T mogodb数据库工具使用介绍
[原创]Studio 3T mogodb数据库工具使用介绍 1 Studio 3T 简介 Studio 3T是一款功能强大的mangodb工具,主要为用户提供网页设计.代码输入.编程管理.数据库编辑 ...
ASP.NET Core 1.1 简介
ASP.NET Core 1.1 于2016年11月16日发布.这个版本包括许多伟大的新功能以及许多错误修复和一般的增强.这个版本包含了多个新的中间件组件.针对Windows的WebListener服 ...
MVVM模式和在WPF中的实现（一）MVVM模式简介
MVVM模式解析和在WPF中的实现(一) MVVM模式简介系列目录: MVVM模式解析和在WPF中的实现(一)MVVM模式简介 MVVM模式解析和在WPF中的实现(二)数据绑定 MVVM模式解析和在 ...
Cassandra简介
在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介 ...
REST简介
一说到REST,我想大家的第一反应就是“啊,就是那种前后台通信方式.”但是在要求详细讲述它所提出的各个约束,以及如何开始搭建REST服务时,却很少有人能够清晰地说出它到底是什么,需要遵守什么样的准则. ...
Microservice架构模式简介
在2014年,Sam Newman,Martin Fowler在ThoughtWorks的一位同事,出版了一本新书<Building Microservices>.该书描述了如何按照Mic ...
const,static,extern 简介
const,static,extern 简介一.const与宏的区别: const简介:之前常用的字符串常量,一般是抽成宏,但是苹果不推荐我们抽成宏,推荐我们使用const常量. 执行时刻:宏是预编 ...

随机推荐

bzoj 3209 bzoj1799 数位dp
3209: 花神的数论题 Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 2267 Solved: 1040[Submit][Status][Disc ...
Azure 上SQL Database(PaaS）Time Zone时区问题处理
在Azure上面的PaaS时间都是以UTC时间为准(云的世界里基本上都是以UTC时间为标准的),所以以前在本地SQL Server上面常用的GetDate()方法会碰到问题,在中国获取的时间会被当前时 ...
Error : getaddrinfo ENOTFOUND registry.npmjs.org registry.npmjs.org:443
环境阿里云 centos7 node v8.11.3 npm 5.6.0 错误 npm update 解决 ping registry.npmjs.org 发现https://registry.np ...
python_继承.ziw
2017年1月2日, 星期一 python_继承 null
GridControl详解（二）表格的列名配置
点击Run Designer控件上的按钮,弹出视图设计窗口: 列配置: 我们配置完列名后,会发现设计视图发生了变化:
ASP.NET 3.5控件和组件开发技术之客户端回发/回调揭密
本文摘录自<纵向切入ASP.NET 3.5控件和组件开发技术>. 对于服务端控件元素,比如ASP.NET的Button标准服务端控件在提交时可以自动把请求发送到服务端处理,这样的控件我们不 ...
LintCode 373: Partition Array
LintCode 373: Partition Array 题目描述分割一个整数数组,使得奇数在前偶数在后. 样例给定[1, 2, 3, 4],返回[1, 3, 2, 4]. Thu Feb 23 ...
小程序制作中一个奇怪的bug
事情是这样的:原一个购物车合并本地数据和服务器数据方法如下 ,正常测试没有问题,当每次重新登录,会调用到这个方法,就会莫名其妙的卡主,debug 发现 a1.length =77731508 导致 ...
使用infinite-scroll实现Ghost博文列表的滚动加载
Ghost博客系统默认提供的博文列表为传统的翻页方式(通过点击上一页.下一页等按钮来切换),随着移动客户端的发展,瀑布流式的滚动加载方式得到广泛应用,有效地提高了用户浏览信息的流畅度.下面详述如何通过 ...
[AHOI2012]树屋阶梯题解（卡特兰数）
[AHOI2012]树屋阶梯 Description 暑假期间,小龙报名了一个模拟野外生存作战训练班来锻炼体魄,训练的第一个晚上,教官就给他们出了个难题.由于地上露营湿气重,必须选择在高处的树屋露营. ...

mogodb(1) 简介

mogodb(1) 简介的更多相关文章

随机推荐

热门专题