Mongodb的聚合和管道

MongoDB 聚合

MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等)，并返回计算后的数据结果。

aggregate() 方法

MongoDB中聚合的方法使用aggregate()。

语法

aggregate() 方法的基本语法格式如下所示：

>db.COLLECTION_NAME.aggregate(AGGREGATE_OPERATION)

注：参数AGGREGATE_OPERATION可以是一个对象（单个处理），也可以是多个对象的数组（管道处理）。

> db.person.find()

{ "_id" : ObjectId("592ffd872108e8e79ea902b0"), "name" : "zjf", "age" : 30 }

{ "_id" : ObjectId("593011c8a92497992cdfac10"), "name" : "xhj", "age" : 30 }

{ "_id" : ObjectId("59301270a92497992cdfac11"), "name" : "zzj", "age" : 2 }

{ "_id" : ObjectId("593015fda92497992cdfac12"), "name" : "my second child", "age" : "i do not know" }

//$group代表分组分组的内容里的是要返回的列的名称第一列的名称_id是不能改变的代表以它进行分组后面的列是汇总列可以随便明明 $sum是汇总的方式 1是汇总的内容可以是列如’$age’ 也可以是数值此处 sum(1)就是count(*)的意思了。

> db.person.aggregate({$group : {_id: '$age', count : {$sum : 1}}})

{ "_id" : "i do not know", "count" : 1 }

{ "_id" : 2, "count" : 1 }

{ "_id" : 30, "count" : 2 }

$group : 将集合中的文档分组，可用于统计结果，$group首先将数据根据key进行分组。

$group语法： { $group: { _id: <expression>, <field1>: { <accumulator1> : <expression1> }, ... } }

_id 是要进行分组的key

$group：可以分组的数据执行如下的表达式计算：

$sum：计算总和。

$avg：计算平均值。

$min：根据分组，获取集合中所有文档对应值得最小值。

$max：根据分组，获取集合中所有文档对应值得最大值。

$push：将指定的表达式的值添加到一个数组中。

$addToSet：将表达式的值添加到一个集合中（无重复值）。

$first：返回每组第一个文档，如果有排序，按照排序，如果没有按照默认的存储的顺序的第一个文档。

$last：返回每组最后一个文档，如果有排序，按照排序，如果没有按照默认的存储的顺序的最后个文档。

对多列进行分组：

{ "$group" : { "_id" : { "citycode":"$citycode" , "uid" : "$uid" } , "count":{ "$sum" : 1 } } }

管道操作的限制：

每个阶段管道限制为100MB的内存。如果一个节点管道超过这个极限,MongoDB将产生一个错误。为了能够在处理大型数据集,可以设置allowDiskUse为true来在聚合管道节点把数据写入临时文件。这样就可以解决100MB的内存的限制。

这个限制可能最新版本会没有了，如果用到的时候可以去https://docs.mongodb.com/查一查官方手册。

管道的概念

管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数。

MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将结果传递给下一个管道处理。管道操作是可以重复的。

表达式：处理输入文档并输出。表达式是无状态的，只能用于计算当前聚合管道的文档，不能处理其它的文档。

这里我们介绍一下聚合框架中常用的几个操作：

$project：修改输入文档的结构。可以用来重命名、增加或删除域，也可以用于创建计算结果以及嵌套文档。
$match：用于过滤数据，只输出符合条件的文档。$match使用MongoDB的标准查询操作。
$limit：用来限制MongoDB聚合管道返回的文档数。
$skip：在聚合管道中跳过指定数量的文档，并返回余下的文档。
$unwind：将文档中的某一个数组类型字段拆分成多条，每条包含数组中的一个值。
$group：将集合中的文档分组，可用于统计结果。
$sort：将输入文档排序后输出。
$geoNear：输出接近某一地理位置的有序文档。

管道操作符实例

1、$project实例

db.article.aggregate(

{ $project : {

title : 1 ,

author : 1 ,

}}

);

这样的话结果中就只还有_id,tilte和author三个字段了，默认情况下_id字段是被包含的，如果要想不包含_id话可以这样:

db.article.aggregate(

{ $project : {

_id : 0 ,

title : 1 ,

author : 1

}});

2.$match实例

db.articles.aggregate( [

{ $match : { score : { $gt : 70, $lte : 90 } } },

{ $group: { _id: null, count: { $sum: 1 } } }

] );

$match用于获取分数大于70小于或等于90记录，然后将符合条件的记录送到下一阶段$group管道操作符进行处理。

3.$skip实例

db.article.aggregate(

{ $skip : 5 });

经过$skip管道操作符处理后，前五个文档被"过滤"掉。

性能相关：

尽早在管道里尝试减少文档的数量和大小。

索引只能用于$match和$sort操作。可以大大的提升性能。

在$match和$sort之外的操作符不能使用索引。

如果使用分片，那么$match和$project将在每个分片上执行，但是其他操作符将在主要分片上执行。（这个主要分片是什么，我没有在官方手册中找到，官方手册中只有路由，配置服务器，分片这些概念）

在聚合管道中，一个步骤的结果将输出给下一个步骤，如果下一个步骤提前执行完毕，如limit，那么会通知上一个步骤，上一个步骤也会停止。

Mongodb的聚合和管道的更多相关文章

MongoDB入门---聚合操作&管道操作符&索引的使用
经过前段时间的学习呢,我们对MongoDB有了一个大概的了解,接下来就要开始使用稍稍深入一点的东西了,首先呢,就是MongoDB中的聚合函数,跟mysql中的count等函数差不多.话不多说哈,我们先 ...
【翻译】MongoDB指南/聚合——聚合管道
[原文地址]https://docs.mongodb.com/manual/ 聚合聚合操作处理数据记录并返回计算后的结果.聚合操作将多个文档分组,并能对已分组的数据执行一系列操作而返回单一结果.Mo ...
快速掌握mongoDB(二)——聚合管道和MapReduce
上一节简单介绍了一下mongoDB的增删改查操作,这一节将介绍其聚合操作.我们在使用mysql.sqlserver时经常会用到一些聚合函数,如sum/avg/max/min/count等,mongoD ...
mongodb操作指令(二)：索引，聚合，管道
索引索引本质上是树,最小的值在最左边的叶子上,最大的值在最右边的叶子上,使用索引可以提高查询速度(而不用全表扫描),也可以预防脏数据的插入(如唯一索引) 索引通常能够极大的提高查询的效率, 如果没有 ...
MongoDB数据库聚合
前面的话聚合操作主要用于对数据的批量处理,将记录按条件分组以后,然后再进行一系列操作,例如,求最大值.最小值.平均值,求和等操作.聚合操作还能够对记录进行复杂的操作,主要用于数理统计和数据挖掘.在 ...
MongoDB,分组,聚合
使用聚合,db.集合名.aggregate- 而不是find 管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的参数.MongoDB的聚合管道将MongoDB文档在一个管道处理完 ...
mongodb高级聚合查询
在工作中会经常遇到一些mongodb的聚合操作,特此总结下.mongo存储的可以是复杂类型,比如数组.对象等mysql不善于处理的文档型结构,并且聚合的操作也比mysql复杂很多. 注:本文基于 mo ...
mongodb高级聚合查询（转）
在工作中会经常遇到一些mongodb的聚合操作,特此总结下.mongo存储的可以是复杂类型,比如数组.对象等mysql不善于处理的文档型结构,并且聚合的操作也比mysql复杂很多. 注:本文基于 mo ...
MongoDb进阶实践之八 MongoDB的聚合初探
一.引言好久没有写东西了,MongoDB系列的文章也丢下好长时间了.今天终于有时间了,就写了一篇有关聚合的文章.一说到“聚合”,用过关系型数据库的人都应该知道它是一个什么东西.关系型数据库有“聚合” ...

随机推荐

DateTime.UtcNow 协调通用时间（UTC）
1.协调通用时间(UTC) 2.本地时间和UTC时间相互转化 DateTime localDateTime = DateTime.Now;//本地时间 DateTime utcDateTime = D ...
升级Nginx1.14.1以上版本
一.编译Nginx ①.下载Nginx最新版目前Nginx最新版是今年11月份发布的 1.9.7 版本,反正1.9+是没有稳定版,所以干脆弄个最新版: cd /usr/local/src w ...
Unity中的全局坐标系和局部坐标系
全局坐标系描述游戏场景内所有物体位置和方向的基准,也称为世界坐标系.在Unity场景中创建的物体都是以全局坐标系中的坐标原点(0,0,0)来确定各自的位置的. 局部坐标系每个物体都有其独立的坐 ...
C++之用程序理解浅拷贝
C++中的浅拷贝是产生很多问题的根本原因,其根本原因是在有指针的时候,只是拷贝了一个指针的值,多个指针指向同一块内存区域,当free内存时,造成其他指针指向的空间不存在.结合构造函数和析构函数理解浅拷 ...
如何用快排思想在O(n)内查找第K大元素--极客时间王争《数据结构和算法之美》
前言半年前在极客时间订阅了王争的<数据结构和算法之美>,现在决定认真去看看.看到如何用快排思想在O(n)内查找第K大元素这一章节时发现王争对归并和快排的理解非常透彻,讲得也非常好,所以想 ...
Linux 常用服务器命令
1.查看端口号是否被占用 netstat -lnp|grep 端口或 lsof -i :端口 2查看进程对应的端口号 netstat -nap | grep 进程号
【pytorch】学习笔记（一）-张量
pytorch入门什么是pytorch PyTorch 是一个基于 Python 的科学计算包,主要定位两类人群: NumPy 的替代品,可以利用 GPU 的性能进行计算. 深度学习研究平台拥有足够 ...
Mysql workbench 字段类型（转载）
转载自:https://blog.csdn.net/j_h_xie/article/details/52924521 项目初始,在使用workbench建表时,字段中有PK,NN,UQ,BIN,UN, ...
最短meeting路线（树的直径）--牛客第四场（meeting）
题意: 给你一棵树,树上有些点是有人的,问你选一个点,最短的(最远的那个人的距离)是多少. 思路: 其实就是树的直径,两遍dfs,dfs第二遍的时候遇到人就更新直径就行了,ans是/2,奇数的话+1. ...
spark教程(13)-shuffle介绍
shuffle 简介 shuffle 描述了数据从 map task 输出到 reduce task 输入的过程,shuffle 是连接 map 和 reduce 的桥梁: shuffle 性能的高低 ...

Mongodb的聚合和管道

Mongodb的聚合和管道的更多相关文章

随机推荐

热门专题