想要深入了解MongoDB如何存储数据之前，有一个概念必须清楚，那就是Memeory-Mapped Files。

Memeory-Mapped Files

下图展示了数据库是如何跟底层系统打交道的。

内存映射文件是OS通过mmap在内存中创建一个数据文件，这样就把文件映射到一个虚拟内存的区域。
虚拟内存对于进程来说，是一个物理内存的抽象，寻址空间大小为2^64
操作系统通过mmap来把进程所需的所有数据映射到这个地址空间(红线)，然后再把当前需要处理的数据映射到物理内存(灰线)
当进程访问某个数据时，如果数据不在虚拟内存里，触发page fault，然后OS从硬盘里把数据加载进虚拟内存和物理内存
如果物理内存满了，触发swap-out操作，这时有些数据就需要写回磁盘，如果是纯粹的内存数据，写回swap分区，如果不是就写回磁盘。

MongoDB的存储模型

有了内存映射文件，要访问的数据就好像都在内存里面，简单化了MongoDB访问和修改数据的逻辑
MongoDB读写都只是和虚拟内存打交道，剩下都交给OS打理
虚拟内存大小=所有文件大小+其他一些开销(连接，堆栈)
如果journal开启，虚拟内存大小差不多翻番
使用MMF的好处1：不用自己管理内存和磁盘调度2：LRU策略3：重启过程中，Cache依然在。
使用MMF的坏处1：RAM使用会受磁盘碎片的影响，高预读也会影响2：无法自己优化调度算法，只能使用LRU

磁盘上的文件是有extent构成，分配集合空间的时候也是以extent为单位进行分配的
一个集合有一个或者多个etent
ns文件里面命名空间记录指向那个集合的第一个extent

数据文件与空间分配

当创建数据库时(其实MongoDB没有显式创建数据库的方法，在向数据库中的集合写入数据时会自动创建该数据库)，MongoDB会在磁盘上分配一组数据文件，所有集合，索引和数据库的其他元数据都保存在这些文件里。数据文件被放在启动时指定的dbpath里，默认放入/data/db下面。典型的一个文件组织结构如下：

$ cat /data/db

$ ls -al

-rw-------  root root    - : local.ns

-rw-------  root root    - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root  - : local.

-rw-------  root root    - : test.ns

-rw-------  root root    - : test.

-rw-------  root root   - : test.

-rw-------  root root   - : test.

-rw-------  root root   - : test.

-rw-------  root root  - : test.

-rw-------  root root  - : test.

-rw-------  root root  - : test.

-rw-------  root root  - : test.

-rw-------  root root  - : test.

...

-rwxr-xr-x  root root           - : mongod.lock

drwxr-xr-x  root root        - : journal

drwxr-xr-x  root root        - : _tmp

mongod.lock中存储了服务器的进程ID，是一个进程锁定文件。数据文件是依据所属的数据库命名的。
test.ns是第一个生成的文件(ns扩展名就是namespace的意思)，数据库中的每个集合和索引都有自己的命名空间，每个命名空间的元数据都存放在这个文件里。默认情况下，.ns文件大小固定在16MB，大约可以存储24000个命名空间。也就是说数据库中的索引和集合总数不能超过24000，该值可以通过mongod的--nssize选项进行定制。
像test.0这样以0开始的整数结尾的文件就是集合和索引数据文件。刚开始的时候，即使只有一条数据，MongoDB也会预分配几个文件，这种预分配的做法，能让数据尽可能连续存储，减少磁盘碎片。在像数据库添加数据时，MongoDB会分配更多的数据文件。每个新数据文件的大小都是上一个已分配文件的两倍(64M->128M->256M)，直到预分配文件大小的上限2G。此处基于一个假设，如果总数据大小呈恒定速率增长，应该逐渐增加数据文件分配的空间。当然这个预分配策略也是可以通过--noprealloc关掉，但是不建议在production环境下使用。
默认的local数据库，该数据库不参与replication。当mongod是一个副本集的成员时，在local数据库中就有一个叫做oplog.rs的预分配的capped集合，预分配的大小为磁盘空间的5%。这个大小可以通过--oplogSize进行调整。oplog主要用于副本集Primary和Secondary成员见的replication，它的大小限制了两个副本集之间，在重新完全同步之前，允许多长时间不同步。
journal目录，journal功能2.4版本默认是开启的。
可以使用db.stats()来确认已使用空间和已分配空间。

{

    "db" : "test",

    "collections" : ,

    "objects" : ,  #文档总个数

    "avgObjSize" : 232.3416429039893,  #单位是字节

    "dataSize" : , #集合中所有数据实际大小(包括padding factor为每个文档分配的额外空间以允许文档增长)。该值在文档size变小的时候，这个值不会减少，除非文档被删除，或者执行compact或者repairDatabase操作

    "storageSize" : , #分配给集合的空间大小(包括为集合增长预留的额外空间和未分配的已删除空间，即不会因为文档size变小或者删除而减小)，实际上从数据文件中分配给集合的空间是以块为单位，也称之为extents，即分配的extents的大小

    "numExtents" : ,

    "indexes" : ,

    "indexSize" : ,

    "fileSize" : , #所有数据文件大小之和，不包括命名空间文件(ns文件)

    "nsSizeMB" : ,

    "dataFileVersion" : {

        "major" : ,

        "minor" :

    },

    "ok" :

}

使用db.accesslog.stats()确认某个集合的使用量

{

    "ns" : "test.accesslog",

    "count" : ,

    "size" : , ＃实际数据大小，不包括索引

    "avgObjSize" : 254.967435758365,

    "storageSize" : , #预分配的数据存储空间

    "numExtents" : ,

    "nindexes" : ,

    "lastExtentSize" : ,

    "paddingFactor" : , #当文档因更新size增长时事先padding可以提速，减少碎片的产生

    "systemFlags" : ,

    "userFlags" : ,

    "totalIndexSize" : ,

    "indexSizes" : {

        "_id_" : ,

        "action_1_time_1" : ,

        "gz_id_1_action_1_time_1" : ,

        "time_1" :

    },

    "ok" :

}

--EOF--

MongoDB如何存储数据的更多相关文章

数据存储之使用MongoDB数据库存储数据
安装MongoDB环境: 1.官网下载:https://www.mongodb.com/download-center#community 2.MongoDB可视化工具compass下载https:/ ...
MongoDB存储数据
想要深入了解MongoDB如何存储数据之前,有一个概念必须清楚,那就是Memeory-Mapped Files. Memeory-Mapped Files 下图展示了数据库是如何跟底层系统打交 ...
SpringBoot学习笔记（10）：使用MongoDB来访问数据
SpringBoot学习笔记(10):使用MongoDB来访问数据快速开始本指南将引导您完成使用Spring Data MongoDB构建应用程序的过程,该应用程序将数据存储在MongoDB(基于 ...
阿里云MongoDB存储数据
近期上了个活动,考虑后期的运维及人力成本,还是选择了阿里云的MongoDB,不过阿里云这玩意本地测试官方没有给本地测试链接地址,只能做映射上去了测了... 选了个2核4G的,更多详细信息,可以去阿里上 ...
为什么MongoDB适合大数据的存储？
NoSQL数据库都被贴上不同用途的标签,如MongoDB和CouchDB都是面向文档的数据库,但这并不意味着它们可以象JSON(JavaScript Object Notation,JavaScrip ...
mongodb 物理删除数据
刚开始用mongodb的时候,感觉很好用,速度很快,不过后面就遇到一个问题,数据物理内存一直增加,删除表也不管用. 然后网上找了各种办法,最后发现一个办法管用,就是物理删除存储数据. 操作如下: 1. ...
Mongodb FAQ 存储(storage)篇
1.什么是内存映射文件(memory mapped files)? 内存映射文件是操作系统通过调用函数mmap()创建的一个放在内存中的一个数据文件.这种文件可以当做一个从零开始的内存或者数组,你可以 ...
MongoDB的存储结构及对空间使用率的影响
MongoDB的存储结构及对空间使用率的影响使用MongoDB一段时间的同学肯定会发现,MongoDB往往会占用比实际数据大小多不少空间的问题.如果利用db.stats()命令去查看,会发现Mong ...
mongodb的存储引擎
mongodb版本为3.4 mongodb存储引起的一些概述存储引擎是MongoDB的核心组件,负责管理数据如何存储在硬盘和内存上.从MongoDB 3.2 版本开始,MongoDB 支持多数据存储 ...

随机推荐

jquery操作cookie {分享}
web开发过程中如果网站有一部分信息是存储在cookie中并与服务器交互的话,那么前台有时就会遇到需要对cookie中信息进行操作的情况,一个最典型的例子就是在前台判断用户是否登录过当前所访问的网站. ...
修改Intellij Idea 创建maven项目默认Java编译版本
在使用Intellij Idea 创建Maven项目时,默认的Java Language是1.5,虽然可以在Project Structrue中修改,但是每次pom.xml文件有变化时,工程又会重置到 ...
[Windows] VS2010代码模板添加版权信息
通过以下方式可以自定义CS类文件代码模板(以下为VS2010,VS2008类似): 1,打开VS的安装目录,例如 D:\Program Files\Microsoft Visual Studio 10 ...
Composer 中国镜像
1.修改Composer的全局配置文件 config.json 使用sudo composer config -l -g 查看composer全局配置信息,在这些信息中查找 [home] 配置项就是 ...
xhtml+css基础知识1
样式行间样式:在标签里 <div style="width:400px; height:200px; background:red;">块</div> 内 ...
NPOI--操作Excel之利器(一)
最近在做一个产品配置的项目,类似于京东上的自主装机,也就是根据自己的需要配置一套完整的产品,只不过我们做的是一个网络产品的配置,如路由器,交换机等网络设备.配置完成后会将配置的信息导出到Excel中, ...
Part 56 Generics in C#
Java之ConnectionPool连接池
1.初始化(根据配置信息进行初始化)2.产生一个新的数据库连接3.有存储已经使用的连接集合,空闲连接集合4.提供给外部调用获取连接的方法5.提供给外部释放连接(不是关闭连接,而是将连接闲置)6.销毁连 ...
SQL Server 2008复制发布订阅(数据同步)
数据库同步问题 1.有一台主数据库服务器A和另外一台数据库服务器B,客户端首先访问数据库B,当B数据库服务器挂掉时就访问A,当对数据库B进行DML操作时,同时对A进行更新,如果A与B之间通讯失败,则将 ...
JAVA JDBC 元数据分析小结
纯干货: 获取数据库名称: /** * 获取数据库的名称 */ public void getDataBaseName() throws Exception { Connection con = DS ...

MongoDB如何存储数据

Memeory-Mapped Files

MongoDB的存储模型

数据文件与空间分配

MongoDB如何存储数据的更多相关文章

随机推荐

热门专题