MongoDB是10gen团队开发的一款面向文档的NoSQL数据库。最近一年多以来,MongoDB被越来越多的大型网站应用到生产环境中,比较著名的有Foursquare, bit.ly, SourceForge, Boxed等。MongoDB提供了Auto-Sharding功能,使用者通过简单的配置就可以很方便地构建一个分布式MongoDB集群。

MongoDB的Auto-Sharding能够做到:

·       当各Sharding间负载和数据分布不平衡时,自动rebalancing

·       简单方便的添加和删除节点

·       自动故障转移(auto failover)

·       可扩展至上千台节点

一个MongoDB Sharding由三部分组成:

1. Shards

Shard即存储实际数据的分片,每个Shard可以是一个mongod实例,也可以是一组mongod实例构成的Replica Set。为了实现每个Shard内部的auto-failover,MongoDB官方建议每个Shard为一组Replica Set。

2. Config Servers

为了将一个collection拆分为多个chunk,存储在多个shard中,需要为该collection指定一个shard key. 例如{name: 1}, {_id: 1}, {lastname:1, firstname:1}等。shard key决定了该条记录属于哪个chunk,例如当1 < shard key < 100时为一个chunk,该chunk保存在shard1上。而Config Servers就是用来存储:所有shard节点的配置信息;每个chunk的shard key范围;chunk在各shard的分布;该集群中所有DB和collection的sharding配置。

3. Routing Process

MongoDB的二进制包中有一个mongos程序,它是用来做为MongoDB集群的Routing Process的。它相当于一个透明代理,接收来自客户端的查询或更新请求,然后询问Config Servers需要到哪个Shard上查询或保存记录,再连接相应的Shard进行操作,最后将结果返回给客户端。客户端只需要将原本发给mongod的查询或更新请求原封不动地发给Routing Process,而不必关心所操作的记录存储在哪个Shard上。

接下来我就为大家介绍一下如何搭建一个简单的MongoDB集群用来测试MongoDB的Auto-Sharding功能。

这个MongoDB集群将包含两个Shards,一个Config Server和一个Routing Process。我们将使用MongoDB 1.6.5来做这个测试,下载地址为: http://www.mongodb.org/downloads

首先,我们为两个Shards和一个Config Server创建数据目录:

sudo mkdir -p /data0/mongo/shard1 /data0/mongo/shard2 /data0/mongo/config

然后,我们依次启动两个mongod进程作为Shard,一个mongod进程作为Config Server,一个mongos进程作为Routing Process:

sudo mongod --port 27017 --fork --logpath /var/log/mongo_shard1.log --dbpath /data0/mongo/shard1 --shardsvr

sudo mongod --port 27018 --fork --logpath /var/log/mongo_shard2.log --dbpath /data0/mongo/shard2 --shardsvr

sudo mongod --port 27217 --fork --logpath /var/log/mongo_config.log --dbpath /data0/mongo/config --configsvr

sudo mongos --port 27417 --fork --logpath /var/log/mongos.log --configdb 127.0.0.1:27217 --chunkSize 1

mongos启动参数中,chunkSize这一项是用来指定chunk的大小的,单位是MB,默认大小为200MB,为了方便测试Sharding效果,我们把chunkSize指定为 1MB。

接下来,我们使用mongo shell登录到mongos,添加Shard节点:

mongo --port 27417

MongoDB shell version: 1.6.5

connecting to: 127.0.0.1:27417/test

> use admin;

switched to db admin

> db.runCommand({addshard:"127.0.0.1:27017"})

{ "shardAdded" : "shard0000", "ok" : 1 }

> db.runCommand({addshard:"127.0.0.1:27018"})

{ "shardAdded" : "shard0001", "ok" : 1 }

下面我们为DataBase "foo"启用Sharding,并将其中的 Collection "col" 的 shard key设置为"{_id: 1}",用来测试Sharding功能:

> db.runCommand({enablesharding:'foo'});

{ "ok" : 1 }

> db.runCommand({shardcollection:"foo.col", key:{_id:1}});

{ "collectionsharded" : "foo.col", "ok" : 1 }

为了测试Sharding的balance效果,我陆续插入了大约200M的数据,插入过程中使用db.stats() 查询数据分布情况。发现在数据量较小,30M以下时,所有trunk都存储在了shard0000上,但继续插入后,数据开始平均分布,并且mongos会对多个shard之间的数据进行rebalance 。在插入数据达到200M,刚插入结束时,shard0000上大约有135M数据,而shard0001上大约有65M数据,但过一段时间之后,shard0000上的数据量减少到了115M,shard0001上的数据量达到了85M。

MongoDB的Auto-Sharding功能自1.6版本开始才production-ready,至今不过半年多的时间,大多数公司仍在观望中,不 敢将其用到生产环境,因此目前网上并没有太多相关资料可以参考。今后我们会陆续为大家分享更多MongoDB使用过程中的经验心得。

MongoDB Auto-Sharding(自动分片)入门介绍的更多相关文章

  1. MongoDB 自动分片 auto sharding

    MongoDB部署实验系列文章 MongoDB做为NoSQL数据库,最近几年持续升温,越来越多的企业都开始尝试用MongoDB代替原有Database做一些事情.MongoDB也在集群,分片,复制上也 ...

  2. 转】MongoDB 自动分片 auto sharding

    原博文出自于: http://blog.fens.me/category/%E6%95%B0%E6%8D%AE%E5%BA%93/page/4/ 感谢! MongoDB 自动分片 auto shard ...

  3. Mongodb主从复制/ 副本集/分片集群介绍

    前面的文章介绍了Mongodb的安装使用,在 MongoDB 中,有两种数据冗余方式,一种 是 Master-Slave 模式(主从复制),一种是 Replica Sets 模式(副本集). Mong ...

  4. MongoDB:分片(简介 & 自动分片 & 片键)

    分片(增加服务器,水平扩展)是MongoDB的扩展方式,通过分片能过增加更多的机器来应对不断增加的负载和数据,还不影响应用. [简介] 分片(sharding)是指将数据拆分,将其分散存在不同的机器上 ...

  5. MongoDB入门(介绍、安装、增删改查)

    文章作者公众号bigsai,已收录在回车课堂,如有帮助还请不吝啬点个赞赞支持一下! 课程导学 大家好我是bigsai,我们都学过数据库,但你可能更熟悉关系(型)数据库例如MySQL,SQL SERVE ...

  6. mongoDB——自动分片(转)

    原文地址:http://www.lanceyan.com/tech/arch/mongodb_shard1.html 在系统早期,数据量还小的时候不会引起太大的问题,但是随着数据量持续增多,后续迟早会 ...

  7. MongoDB学习系列(1)--入门介绍

    MongoDB是一款为Web应用程序设计的面向文档结构的数据库系统. MongoDB贡献者是10gen公司.地址:http://www.10gen.com 1.MongoDB主要特性: 1.1文档数据 ...

  8. 测试MongoDB的自动分片

    MongoDB的自动分片: test库分片配置: db.shards.find(){ "_id" : "shard0000", "host" ...

  9. MongoDB Sharding(一) -- 分片的概念

    (一)分片的由来随着系统的业务量越来越大,业务系统往往会出现这样一些特点: 高吞吐量 高并发 超大规模的数据量 高并发的业务可能会耗尽服务器的CPU,高吞吐量.超大规模的数据量也会带来内存.磁盘的压力 ...

随机推荐

  1. Linux系统新手学习的11点建议

    随着Linux应用的扩展许多朋友开始接触Linux,根据学习Windwos的经验往往有一些茫然的感觉:不知从何处开始学起.这里介绍学习Linux的一些建议. 一.从基础开始:常常有些朋友在Linux论 ...

  2. Java-马士兵设计模式学习笔记-责任链模式-FilterChain功能

    一.目标 增加filterchain功能 二.代码 1.Filter.java public interface Filter { public String doFilter(String str) ...

  3. Java-对象数组排序

    1.对对象数组排序:对象要提供一个compare方法比较对象的大小 2.代码 package Test; public class TestObjectArray { public static vo ...

  4. Zen Coding 用法

    html:5 或者 ! 生成 HTML5 结构html:xt 生成 HTML4 过渡型html:4s 生成 HTML4 严格型 E 元素名 (div, p);E#id 带id的元素 (div#cont ...

  5. 使AJAX调用尽可能利用缓存特性

    优化网站设计(十四):使AJAX调用尽可能利用缓存特性 前言 网站设计的优化是一个很大的话题,有一些通用的原则,也有针对不同开发平台的一些建议.这方面的研究一直没有停止过,我在不同的场合也分享过这样的 ...

  6. JS可改变列宽table

    <!DOCTYPE HTML> <html> <head> <meta charset="gbk"> <title>ta ...

  7. Data Base MongoDB 插入时间不正确的问题

    关于mongodb插入时间不正确的问题 mongodb插入时间: 把本地时间转换为utc时间:  也就是比本地时间少8个小时: 读取的时候又会转换本地时间: 所有一般不需处理:

  8. django 外键 ,django __

    data sqlite> select * from author; id name age 1 jim 12 2 tom 11 sqlite> select * from book; i ...

  9. [转]c/c++输入函数

    最全输入函数 c/c++ 一: c=getchar(); 功能:读入一个字符 说明:调用此函数时要求在程序的第一行有预编译命令:#include<stdio>,不过在做c++时 有#inc ...

  10. Shadow mapping

    http://www.cnblogs.com/cxrs/archive/2009/10/17/1585038.html 1.什么是Shadow Maping?      Shadow Mapping是 ...