mongoDB研究笔记:分片集群的工作机制
上面的(http://www.cnblogs.com/guoyuanwei/p/3565088.html)介绍了部署了一个默认的分片集群,对mongoDB的分片集群有了大概的认识,到目前为止我们还没有在集群上建立其它数据库,mongoDB的分片是基于集合(表)来进行的,因此要对一个集合分片,必须先使其所在的数据库支持分片。如何使一个集合分片?如何选择分片用到的片键?平衡器如何使chunks块在片中迁移?分片的读写情况怎么样?接下来将探讨这些问题。
使集合分片
(1)连接到上面所配置集群中的mongos实例
> mongo --port 40009
(2)在集群中创建数据库eshop和集合users
mongos> use eshop
switched to db eshop
mongos> db.users.insert({userid:1,username:"lili",city:"beijing"})
此时在集合users中只有一条记录:
{ "_id" : ObjectId("521dcce715ce3967f964c00b"), "userid" : 1, "username" : "lili", "city" : "beijing" }
观察集群的状态信息,字段databases会增加一条记录,其它字段与初始化的集群信息相同:
mongos> sh.status()
databases:
{ "_id" : "eshop", "partitioned" : false, "primary" : "rs0" }
可以看到此时数据库eshop还没支持分片,且数据库中所有未分片的集合将保存在片rs0中;通过查看磁盘上的数据文件,此时会产生eshop.0、eshop.1、eshop.ns三个文件且位于rs0所对应的数据目录中,集群中chunks集合为空,因为现在还没有对集合users分片。
(3)分片
mongoDB的分片是基于范围的,也就是说任何一个文档一定位于指定片键的某个范围内,一旦片键选择好后,chunks就会按照片键来将一部分documents从逻辑上组合在一起。这里对users集合选择"city"字段作为片键来分片,假如现在"city"字段值有"beijing"、"guangzhou"、"changsha",初始的时候随机的向集群中插入包含以上字段值的文档,此时由于chunks的大小未达到默认的阈值64MB或100000个文档,集群中应该只有一个chunk,随着继续插入文档,超过阈值的chunk会被分割成两个chunks,最终的chunks和片键分布可能如下表格所示。表格只是大体上描述了分片的情况,实际可能有所变化,其中-∞表示所有键值小于"beijing"的文档,∞表示所有键值大于"guangzhou"的文档。这里还要强调一点就是chunks所包含的文档,并不是物理上的包含,它是一种逻辑包含,它只表示带有片键的文档会落在哪个范围内,而这个范围的文档对应的chunk位于哪个片是可以查询到的,后续的读写操作就定位到这个片上的具体集合中进行。
|
开始键值 |
结束键值 |
所在分片 |
|
-∞ |
beijing |
rs0 |
|
beijing |
changsha |
rs1 |
|
changsha |
guangzhou |
rs0 |
|
guangzhou |
∞ |
rs1 |
下面继续通过命令使集合users分片,使集合分片必须先使其所在的数据库支持分片,如下:
mongos> sh.enableSharding("eshop") //使数据库支持分片
对已有数据的集合进行分片,必须先在所选择的片键上创建一个索引,如果集合初始时没有任何数据,则mongoDB会自动在所选择的的片键上创建一个索引。
mongos> db.users.ensureIndex({city:1}) //创建基于片键的索引
mongos> sh.shardCollection("eshop.users",{city:1}) //使集合分片
成功执行上面命令后,再次查看集群状态信息:
mongos> sh.status()
--- Sharding Status ---
sharding version: {
"_id" : 1,
"version" : 3,
"minCompatibleVersion" : 3,
"currentVersion" : 4,
"clusterId" : ObjectId("521b11e0a663075416070c04")
}
shards:
{ "_id" : "rs0", "host" : "rs0/GUO:40000,GUO:40001" }
{ "_id" : "rs1", "host" : "rs1/GUO:40003,GUO:40004" }
databases:
{ "_id" : "admin", "partitioned" : false, "primary" : "config" }
{ "_id" : "eshop", "partitioned" : true, "primary" : "rs0" } //数据库已支持分片
eshop.users //分片的集合
shard key: { "city" : 1 } //片键
chunks: //所有块信息
rs0 1 //当前只有1个块在片rs0上
{ "city" : { "$minKey" : 1 } } -->> { "city" : { "$maxKe
y" : 1 } } on : rs0 { "t" : 1, "i" : 0 } //此块的包含键值范围是-∞到∞,且在片rs0上,因为此时集合中只有一条记录,还未进行块的分割、迁移
(4)继续插入数据使集合自动分片
为了观察到集合被分成多个chunk,并分布在多个片上,继续插入一些数据进行分析。
> for(var i = 1; i<10000;i++) db.users.insert({userid:i,username:"lili"+i,city:"beijing"})
> for(var i = 0; i<10000;i++) db.users.insert({userid:i,username:"xiaoming"+i,city:"changsha"})
> for(var i = 0; i<10000;i++) db.users.insert({userid:i,username:"xiaoqiang"+i,city:"guangzhou"})
通过以上三次循环插入文档后,第一个chunk的大小会超过64MB时,出现chunk分割与迁移的过程。再次观察集群的状态信息,字段databases值变为:
databases:
{ "_id" : "admin", "partitioned" : false, "primary" : "config" }
{ "_id" : "eshop", "partitioned" : true, "primary" : "rs0" }
eshop.users
shard key: { "city" : 1 }
chunks:
rs1 1
rs0 2
{ "city" : { "$minKey" : 1 } } -->> { "city" : "beijing"
} on : rs1 { "t" : 2, "i" : 0 } //块区间
{ "city" : "beijing" } -->> { "city" : "guangzhou" } on
: rs0 { "t" : 2, "i" : 1 } //块区间
{ "city" : "guangzhou" } -->> { "city" : { "$maxKey" : 1
} } on : rs0 { "t" : 1, "i" : 4 } //块区间
说明此时集群中有三个块,其中在片rs0上有两个块,在片rs1上有一个块,每个块包含一定区间范围的文档。为了更加清楚的知道这些块是如何分割和迁移的,可以查看changelog集合中的记录信息进行分析。
从命令db.changelog.find()输出内容中可以看到有以下几步:
第一步:分割大于64MB的块,原来此块的片键的区间范围是-∞到∞,分割后区间变为-∞到"beijing"、"beijing"到∞两个区间。
第二步:随着继续插入文档,区间"beijing"到∞所包含的块的大小超过64MB,此时这个区间又被分割为"beijing"到"guangzhou"、"guangzhou"到∞这两个区间。
第三步:经过上面的分割,现在相当于有三个区间块了,这一步做的就是将区间-∞到"beijing"对应的chunk从片rs0迁移到片rs1,最终结果是分片rs0上包含"beijing"到"guangzhou"、"guangzhou"到∞两个区间的块,分片rs1上包含区间-∞到"beijing"的块。
上面循环插入文档时还插入了片键值为"changsha"的记录,这个片键的记录应该都位于区间"beijing"到"guangzhou"所对应的chunk上,只不过由于chunk的大小还未达到64MB,所以还未进行分割,如果继续插入此片键的文档,区间可能会被分割为"beijing"到"changsha"、"changsha"到"guangzhou"这两个区间块。依次类推,mongoDB就是这样来实现海量数据的分布式存储的,同时由于每个片又是由复制集组成,保证了数据的可靠性。
mongoDB研究笔记:分片集群的工作机制的更多相关文章
- 【MongoDB】在windows平台下mongodb的分片集群(五)
本篇接着上面的四篇继续讲述在window平台下mongodb的分片集群搭建. 在分片集群中也照样能够创建索引,创建索引的方式与在单独数据库中创建索引的方式一样.因此这不再多说.本篇主要聚焦在分片键的选 ...
- MongoDB之分片集群(Sharding)
MongoDB之分片集群(Sharding) 一.基本概念 分片(sharding)是一个通过多台机器分配数据的方法.MongoDB使用分片支持大数据集和高吞吐量的操作.大数据集和高吞吐量的数据库系统 ...
- MongoDB之分片集群与复制集
分片集群 1.1.概念 分片集群是将数据存储在多台机器上的操作,主要由查询路由mongos.分片.配置服务器组成. ●查询路由根据配置服务器上的元数据将请求分发到相应的分片上,本身不存储集群的元数据, ...
- MongoDB笔记: 分片集群
MongoDB分片集群由三个模块组成 shard: 分片(或者分区)模块, 每个分片分别存储一部分数据, 从MongoDB 3.6开始, 分片必须是replica set(副本集) mongos: m ...
- MongoDB 搭建分片集群
在MongoDB(版本 3.2.9)中,分片是指将collection分散存储到不同的Server中,每个Server只存储collection的一部分,服务分片的所有服务器组成分片集群.分片集群(S ...
- 【MongoDB】在windows平台下搭建mongodb的分片集群(二)
在上一片博客中我们讲了Mongodb数据库中分片集群的主要原理. 在本篇博客中我们主要讲描写叙述分片集群的搭建过程.配置分片集群主要有两个步骤.第一启动全部须要的mongod和mongos进程. 第二 ...
- 【MongoDB】在windows平台下mongodb的分片集群(六)
在本篇博客中我们主要讨论下博客的管理.因为已经在前面五篇中写了具体的实例,因此这里就不再举例说明. 一.监控 分片集群是整个体系中比較复杂的一块,因此更应该须要监控. 主要命令: serverstat ...
- MongoDB的分片集群搭建
MongoDB的最为自豪的一个特色之一,分片. 参考官方文档: https://docs.mongodb.com/manual/sharding/ 单机压力,高频查询CPU,IO 单表压力,百万千万 ...
- MongoDB 分片集群技术
在了解分片集群之前,务必要先了解复制集技术! 1.1 MongoDB复制集简介 一组Mongodb复制集,就是一组mongod进程,这些进程维护同一个数据集合.复制集提供了数据冗余和高等级的可靠性,这 ...
随机推荐
- 使用dom元素和jquery元素实现简单增删改的练习
软件开发实际就是数据的增删改查,javascript前端开发也不例外.今天学了jquery框架的简单使用.于是用它实现简单的增删改,接着也用原始的javascript实现同样的功能,以便看出jquer ...
- 【python】将一个正整数分解质因数
def reduceNum(n): '''题目:将一个正整数分解质因数.例如:输入90,打印出90=2*3*3*5''' print '{} = '.format(n), : print 'Pleas ...
- struts2的文件上传
在做B/S系统时,通常会涉及到上传文件和下载文件,在没接struts2框架之前,我们都是使用apache下面的commons子项目的FileUpload组件来进行文件的上传,但是那样做的话,代码看起来 ...
- 遇到的sql关键字
select count(1) 相当于 select count(*) 网上有比较差别的 菜鸟不用管
- myeclipse2014激活
MyEclipse2014破解教程 一. 在破解myeclipse2014之前,要先把环境变量配置好: 1)打开我的电脑--属性--高级--环境变量 2)新建系统变量JAVA_HOME 和CLASSP ...
- 进阶——scrapy登录豆瓣解决cookie传递问题并爬取用户参加过的同城活动©seven_clear
最近在用scrapy重写以前的爬虫,由于豆瓣的某些信息要登录后才有权限查看,故要实现登录功能.豆瓣登录偶尔需要输入验证码,这个在以前写的爬虫里解决了验证码的问题,所以只要搞清楚scrapy怎么提交表单 ...
- POJ 2096 Collecting Bugs (概率DP)
题意:给定 n 类bug,和 s 个子系统,每天可以找出一个bug,求找出 n 类型的bug,并且 s 个都至少有一个的期望是多少. 析:应该是一个很简单的概率DP,dp[i][j] 表示已经从 j ...
- git ignore
我最初将整个项目push到远程仓库,但是项目代码里面有大文件,从而传输太费时间了. 看网上的说法,可以通过ignore文件达到不提交某些文件的效果,尝试了一下发现不行. 后来尝试清除缓存 $ git ...
- Ubuntu 12.04 安装MySQL
本文地址:http://www.cnblogs.com/yhLinux/p/4012689.html 本文适合新手入门. 本文是对 Ubuntu 12.04 环境下安装 MySQL 的记录,通过这两天 ...
- Lisp 函数
(quote x) [返回x] >>>>>>>>>>>>>>>>>>>>> ...