MongoDB sharding 集合不分片性能更高？

最近云上用户用户遇到一个 sharding 集群性能问题的疑惑，比较有代表性，简单分享一下

测试配置

mongos x 2、shard x 3
测试1：集合不开启分片，批量 insert 导入数据，每个 batch 100 个文档
测试2：集合开启分片，随机生成 shardKey，chunk 已提前 split 好，能确保写入均分到3个shard

测试结果

测试1：单个 shard cpu 跑满，insert qps 在 6w 左右
测试2：3个 shard cpu 跑满，insert qps 在 7w 左右（平均每个分片2.4w左右）

注：两个测试里，mongos 都不是瓶颈，能力足够

从测试结果看，每个shard都承担 1/3 的负载，的确达到横向扩张的目的，但为啥分片之后，单个shard的能力就下降了呢？如果是这样，sharding的扩展能力如何体现？

结果分析

这里核心的问题在于 batch insert 在 mongos 和 mongod 上处理行为的差别

导入数据时，一次 insert 一条数据，和一次 insert 100 条数据，性能差距是很大的；首先减少了client、server 端之间的网络交互；同时 server 可以将 batch insert 放到一个事务里，降低开销；
mongos 在收到 batch insert 时，因为一个 batch 里的数据需要根据 shardKey 分布到不同的shard，所以一个 batch 实际上需要被拆开的；这里 mongos 也做了优化，会尽量将连续的分布在一个shard上的文档做 batch 发到后端 shard。
在集合不开启分片的情况，mongos 收到的 batch 肯定是转发给 primary shard，所以转发过去还是一整个 batch 操作；而在集合开启分片的情况下，因为用户测试时，shardKey 是随机生成的，基本上整个 batch 被打散成单条操作，逐个往后端 shard 上发送，请求到后端 shard 基本已经完全没有合并了。

所以在上述测试中，不分片的单个 shard 6w qps、与分片后每个 shard 2.4w qps，实际上就是请求是否 batch 执行的差别。

对应用的影响

从上面的分析可以看出，batch 往分片的集合写入时，因为无法预知数据应该分散到哪个分片，实际上往后端 shard 写入时，会失去 batch 的效果，但这个批量导入一般发生在数据导入阶段，影响比较小。

本文作者：张友东

原文链接

本文为云栖社区原创内容，未经允许不得转载。

MongoDB sharding 集合不分片性能更高？的更多相关文章

MongoDB Sharding(二) -- 搭建分片集群
在上一篇文章中,我们基本了解了分片的概念,本文将着手实践,进行分片集群的搭建首先我们再来了解一下分片集群的架构,分片集群由三部分构成: mongos:查询路由,在客户端程序和分片之间提供接口.本次实 ...
graphicview和widgets没本质区别。它只是更轻量级，更灵活，性能更高的widgets
graphicview和widgets没本质区别.它只是更轻量级,更灵活,性能更高的widgets.核心就是把widgets变成了更轻量级的graphicitem,把QWidget的各种事件转换成了g ...
SqlHelper发布——比你期望的还要多的多（例如比MyBatis-Pagehelper性能更高）
SqlHelper发布——比Mybatis-PageHelper性能更高起源前段时间开启了一个新的项目,在选择分页插件时,发现github上很流行的一个是pagehelper,在百度上搜索了一下, ...
即使用ADO.NET，也要轻量级动态生成更新SQL，比Ormlite性能更高
先上测试结果: //测试1000次针对同一个表同一个字段更新,比Ormlite平均快2.34倍 //生成SQL+ExecuteNonQuery Ormlite 倍数 //6513ms 15158ms ...
MongoDB 查看集合是否分片
MongoDB会把分片过的集合保存在config.collection集合中,若需要查看分片键,则需要根据该集合进行查找.官方的其他很多分片快捷命令也都处于config库三种方式 1.去config ...
MongoDB Sharding(一) -- 分片的概念
(一)分片的由来随着系统的业务量越来越大,业务系统往往会出现这样一些特点: 高吞吐量高并发超大规模的数据量高并发的业务可能会耗尽服务器的CPU,高吞吐量.超大规模的数据量也会带来内存.磁盘的压力 ...
Mongodb主从复制/ 副本集/分片集群介绍
前面的文章介绍了Mongodb的安装使用,在 MongoDB 中,有两种数据冗余方式,一种是 Master-Slave 模式(主从复制),一种是 Replica Sets 模式(副本集). Mong ...
数据库查询SQL语句的时候如何写会效率更高?
引言以前刚开始做项目的时候,开发经验尚浅,遇到问题需求只要把结果查询出来就行,至于查询的效率可能就没有太多考虑,数据少的时候还好,数据一多,效率问题就显现出来了.每次遇到查询比较慢时,项目经理就会问 ...
IntelliJ IDEA 2019.2最新解读：性能更好，体验更优，细节处理更完美！
idea 2019.2 准备 idea 2019.2正式版是在2019年7月24号发布的,本篇文章,我将根据官方博客以及自己的理解来进行说明,总体就是:性能更好,体验更优,细节处理更完美! 支持jdk ...

随机推荐

组件：参数验证props:组件参数验证语法
<!DOCTYPE html> <html lang="zh"> <head> <title></title> < ...
jmeter体系结构
jmeter体系结构 jmeter体系结构: 1.取样器.断言.监听器组合在一起就可以帮助我们完成发送请求.验证结果及记录结果三项工作 (1)取样器的访问路径:[测试计划]---[线程组] ...
垂直对齐：vertical-align属性——使用中注意事项
1.vertical-align(垂直对齐),只对行内元素和单元格元素有效,例如属性为inline和inline-block的元素以及图片.输入表单等都是行内元素; 2.元素默认的垂直对齐方式为基线对 ...
Leetcode463.Island Perimeter岛屿的周长
给定一个包含 0 和 1 的二维网格地图,其中 1 表示陆地 0 表示水域. 网格中的格子水平和垂直方向相连(对角线方向不相连).整个网格被水完全包围,但其中恰好有一个岛屿(或者说,一个或多个表示陆地 ...
Django定义全局变量
定义全局变量,在项目的任何位置都可以获取到变量的值在include App=>include文件夹下=>context_processors.py 里定义需要获取的变量 #!/usr/b ...
Docx 生成word文档
1.生成word代码 /// <summary> /// 生成word文档 /// </summary> /// <param name="tempPath&q ...
kindle电子书下载网站收藏
kindle推 http://readfree.me 鸠摩捜书新浪爱问共享资料我的小书屋云海图书馆书语者 36镇网站收藏夹
Redis数据库在ubuntu16.04下的安装
1.安装 sudo apt-get install redis-server 2.启动 sudo service redis-server start 3.查看 ps aux|grep redis 4 ...
python 数字编码
洛谷3128 [USACO15DEC]最大流Max Flow——树上差分
题目:https://www.luogu.org/problemnew/show/P3128 树上差分.用离线lca,邻接表存好方便. #include<iostream> #includ ...