分组聚合

如果你有数据存储在MongoDB中，你想做的可能就不仅仅是将数据提取出来这么简单，可能需要对数据进行分析并加以利用。

聚合框架：可以使用多个构件创建一个管道，上一个构件的结果传给下一个构件。这些构建包括（括号内为构件对应的操作符）：筛选（$match）、投射（$project）、分组（$group）、排序（$sort）、限制（$limit）、跳过（$skip）,不同的管道操作符可以任意组合，重复使用。

from pymongo import MongoClient

import datetime

client=MongoClient('mongodb://localhost:27017')

table=client['db1']['emp']

l=[

('张飞','male',18,'','',7300.33,401,1), #以下是教学部

('张云','male',78,'','teacher',1000000.31,401,1),

('刘备','male',81,'','teacher',8300,401,1),

('关羽','male',73,'','teacher',3500,401,1),

('曹操','male',28,'','teacher',2100,401,1),

('诸葛亮','female',18,'','teacher',9000,401,1),

('周瑜','male',18,'','teacher',30000,401,1),

('司马懿','male',48,'','teacher',10000,401,1),

('袁绍','female',48,'','sale',3000.13,402,2),#以下是销售部门

('张全蛋','female',38,'','sale',2000.35,402,2),

('鹌鹑蛋','female',18,'','sale',1000.37,402,2),

('王尼玛','female',18,'','sale',3000.29,402,2),

('我尼玛','female',28,'','sale',4000.33,402,2),

('杨过','male',28,'','operation',10000.13,403,3), #以下是运营部门

('小龙女','male',18,'','operation',20000,403,3),

('郭靖','female',18,'','operation',19000,403,3),

('黄蓉','male',18,'','operation',18000,403,3),

('梅超风','female',18,'','operation',17000,403,3)

]

for n,item in enumerate(l):

    d={

        "_id":n,

        'name':item[0],

        'sex':item[1],

        'age':item[2],

        'hire_date':datetime.datetime.strptime(item[3],'%Y%m%d'),

        'post':item[4],

        'salary':item[5]

    }

    table.save(d)

# 准备数据

准备数据

$match

#match 用于对数据进行筛选

{"$match":{"字段":"条件"}},可以使用任何常用查询操作符$gt,$lt,$in等

#例1、select * from db1.emp where post='teacher';

db.emp.aggregate({"$match":{"post":"teacher"}})

#例2、select * from db1.emp where id > 3;

db.emp.aggregate(

    {"$match":{"_id":{"$gt":3}}},

)

$project

# project翻译为投射 ,即将一个数据结果映射为另一个结果 过程中可以对某些数据进行修改  控制其最终显示的结果

{"$project":{"要保留的字段名":1,"要去掉的字段名":0,"新增的字段名":"表达式"}}

#1、select name,post,(age+1) as new_age from db1.emp;

db.emp.aggregate(

    {"$project":{

        "name":1,

        "post":1

        }})

#2、表达式之数学表达式

{"$add":[expr1,expr2,...,exprN]} #相加

{"$subtract":[expr1,expr2]} #第一个减第二个

{"$multiply":[expr1,expr2,...,exprN]} #相乘

{"$divide":[expr1,expr2]} #第一个表达式除以第二个表达式的商作为结果

{"$mod":[expr1,expr2]} #第一个表达式除以第二个表达式得到的余数作为结果

#例:所有人年龄加1显示

db.emp.aggregate(

    {"$project":{

        "name":1,

        "post":1,

        "new_age":{"$add":["$age",1]}

        }})

# 错误示范: 原因:参加运算的字段不能被影藏

db.emp.aggregate(

    {"$project":{

    "name":1,

    "salary":1,

    "age":0,

    "new_age":{"$add":["$age",1]}

    }})

#3、表达式之日期表达式:$year,$month,$week,$dayOfMonth,$dayOfWeek,$dayOfYear,$hour,$minute,$second

#例如：select name,date_format("%Y") as hire_year from db1.emp

db.emp.aggregate(

    {"$project":{"name":1,"hire_year":{"$year":"$hire_date"}}}

)

#例如查看每个员工的工作多长时间

db.emp.aggregate(

    {"$project":{"name":1,"hire_period":{

        "$subtract":[

            {"$year":new Date()},

            {"$year":"$hire_date"}

        ]

    }}}

)

#4、字符串表达式

{"$substr":[字符串/$值为字符串的字段名,起始位置,截取几个字节]}

{"$concat":[expr1,expr2,...,exprN]} #指定的表达式或字符串连接在一起返回,只支持字符串拼接

{"$toLower":expr}

{"$toUpper":expr}

db.emp.aggregate( {"$project":{"NAME":{"$toUpper":"$name"}}})

#5、逻辑表达式

$and

$or

$not

其他见Mongodb权威指南

$group

# $group用于分组

# 分组后具体信息被影藏

db.emp.aggregate(

    {"$match":{"_id":{"$gt":3}}},

    {"$group":{"_id":"$post"}}

)

# 通常我们要对分组后的内容进行统计这就需要对应的几个聚合函数

# select id,avg(salary) from db1.emp where id > 3 group by post;

db.emp.aggregate(

    {"$match":{"_id":{"$gt":3}}},

    {"$group":{"_id":"$post",'avg_salary':{"$avg":"$salary"}}},

)

# math用于匹配 与mysql不同的是没有顺序限制 每一个操作像是一个管道接收上一个的数据进行处理再传给下一个

# select id,avg(salary) from db1.emp where id > 3 group by post having avg(salary) > 10000;

db.emp.aggregate(

    {"$match":{"_id":{"$gt":3}}},

    {"$group":{"_id":"$post",'avg_salary':{"$avg":"$salary"}}},

      {"$match":{"avg_salary":{"$gt":10000}}}

)

# 对应的聚合函数 $sum、$avg、$max、$min、$first、$last

#1、将分组字段传给$group函数的_id字段即可

{"$group":{"_id":"$sex"}} #按照性别分组

{"$group":{"_id":"$post"}} #按照职位分组

{"$group":{"_id":{"state":"$state","city":"$city"}}} #按照多个字段分组，比如按照州市分组

#2、分组后聚合得结果,类似于sql中聚合函数的聚合操作符：$sum、$avg、$max、$min、$first、$last

#例1：select post,max(salary) from db1.emp group by post;

db.emp.aggregate({"$group":{"_id":"$post","max_salary":{"$max":"$salary"}}})

#例2：去每个部门最大薪资与最低薪资

db.emp.aggregate({"$group":{"_id":"$post","max_salary":{"$max":"$salary"},"min_salary":{"$min":"$salary"}}})

#例3：如果字段是排序后的，那么$first,$last会很有用,比用$max和$min效率高

db.emp.aggregate({"$group":{"_id":"$post","first_id":{"$first":"$_id"}}})

#例4：求每个部门的总工资

db.emp.aggregate({"$group":{"_id":"$post","count":{"$sum":"$salary"}}})

#例5：求每个部门的人数

db.emp.aggregate({"$group":{"_id":"$post","count":{"$sum":1}}})

#3、数组操作符

{"$addToSet":expr}：不重复

{"$push":expr}：重复

# 等同于group_concat

#例：查询岗位名以及各岗位内的员工姓名:select post,group_concat(name) from db1.emp group by post;

db.emp.aggregate({"$group":{"_id":"$post","names":{"$push":"$name"}}})

db.emp.aggregate({"$group":{"_id":"$post","names":{"$addToSet":"$name"}}})

$sort、limit、skip

{"$sort":{"字段名":1,"字段名":-1}} #1升序，-1降序

{"$limit":n}

{"$skip":n} #跳过多少个文档

#例1、取平均工资最高的前两个部门

db.emp.aggregate(

{

    "$group":{"_id":"$post","平均工资":{"$avg":"$salary"}}

},

{

    "$sort":{"平均工资":-1}

},

{

    "$limit":2

}

)

#例2、

db.emp.aggregate(

{

    "$group":{"_id":"$post","平均工资":{"$avg":"$salary"}}

},

{

    "$sort":{"平均工资":-1}

},

{

    "$limit":2

},

{

    "$skip":1

}

)

排序：$sort、限制：$limit、跳过：$skip

$sample

# 随机取出n条记录

#集合users包含的文档如下

{ "_id" : 1, "name" : "dave123", "q1" : true, "q2" : true }

{ "_id" : 2, "name" : "dave2", "q1" : false, "q2" : false  }

{ "_id" : 3, "name" : "ahn", "q1" : true, "q2" : true  }

{ "_id" : 4, "name" : "li", "q1" : true, "q2" : false  }

{ "_id" : 5, "name" : "annT", "q1" : false, "q2" : true  }

{ "_id" : 6, "name" : "li", "q1" : true, "q2" : true  }

{ "_id" : 7, "name" : "ty", "q1" : false, "q2" : true  }

#下述操作时从users集合中随机选取3个文档

db.users.aggregate({"$sample":{"size":3}})

随机选取n个：$sample

MonggoDB(二)的更多相关文章

(二十八)monggodb和maven零散笔记
(1)maven导包的问题:当在pom.xml界面的Dependencies中点击add之后输入jar包查询条件后,如果确定条件没有输错,repo中也确实存在相关jar包,而并没有查处任何结果时,可以 ...
NoSql非关系型数据库之MongoDB应用(二)：安装MongoDB可视化工具
业精于勤,荒于嬉:行成于思,毁于随. 我们上次说到NoSql非关系型数据库之MongoDB应用(一):安装MongoDB服务这次我们介绍安装 NoSQL Manager for MongoDB 可 ...
【小程序分享篇二】web在线踢人小程序，维持用户只能在一个台电脑持登录状态
最近离职了, 突然记起来还一个小功能没做, 想想也挺简单,留下代码和思路给同事做个参考. 换工作心里挺忐忑, 对未来也充满了憧憬与担忧.(虽然已是老人, 换了N次工作了,但每次心里都和忐忑). 写写代 ...
前端开发中SEO的十二条总结
一. 合理使用title, description, keywords二. 合理使用h1 - h6, h1标签的权重很高, 注意使用频率三. 列表代码使用ul, 重要文字使用strong标签四. 图片 ...
【疯狂造轮子-iOS】JSON转Model系列之二
[疯狂造轮子-iOS]JSON转Model系列之二本文转载请注明出处 —— polobymulberry-博客园 1. 前言上一篇<[疯狂造轮子-iOS]JSON转Model系列之一> ...
【原】Android热更新开源项目Tinker源码解析系列之二:资源文件热更新
上一篇文章介绍了Dex文件的热更新流程,本文将会分析Tinker中对资源文件的热更新流程. 同Dex,资源文件的热更新同样包括三个部分:资源补丁生成,资源补丁合成及资源补丁加载. 本系列将从以下三个方 ...
谈谈一些有趣的CSS题目（十二）-- 你该知道的字体 font-family
开本系列,谈谈一些有趣的 CSS 题目,题目类型天马行空,想到什么说什么,不仅为了拓宽一下解决问题的思路,更涉及一些容易忽视的 CSS 细节. 解题不考虑兼容性,题目天马行空,想到什么说什么,如果解题 ...
MIP改造常见问题二十问
在MIP推出后,我们收到了很多站长的疑问和顾虑.我们将所有疑问和顾虑归纳为以下二十个问题,希望对大家理解 MIP 有帮助. 1.MIP 化后对其他搜索引擎抓取收录以及 SEO 的影响如何? 答:在原页 ...
如何一步一步用DDD设计一个电商网站（二）—— 项目架构
阅读目录前言六边形架构终于开始建项目了 DDD中的3个臭皮匠 CQRS(Command Query Responsibility Segregation) 结语一.前言上一篇我们讲了DDD的 ...

随机推荐

并发编程之wait()、notify()
前面的并发编程之volatile中我们用程序模拟了一个场景:在main方法中开启两个线程,其中一个线程t1往list里循环添加元素,另一个线程t2监听list中的size,当size等于5时,t2线程 ...
探究ElasticSearch中的线程池实现
探究ElasticSearch中的线程池实现 ElasticSearch里面各种操作都是基于线程池+回调实现的,所以这篇文章记录一下java.util.concurrent涉及线程池实现和Elasti ...
洛谷红名+AC150祭
emmmm没什么想说的,随便放个图吧23333(逃~
使用容器编排工具docker swarm安装clickhouse多机集群
1.首先需要安装docker最新版,docker 目前自带swarm容器编排工具 2.选中一台机器作为master,执行命令sudo docker swarm init [options] 3,再需 ...
vmware彻底隐藏控制栏白条
vmware全屏模式都会在屏幕顶端留一条细细的条. 选择查看,里面有个独占模式.选中该模式,就可以达到完全全屏的效果. 但是进入独占模式后,无法再在多个系统间来回切换,使用ctrl+alt可以切换回正 ...
Laravel框架中打印sql
在使用Laravel框架的时候,调试的时候,需要将查询的SQL输出校验,这是需要将SQL打印出来. 一.方法 DB::connection()->enableQueryLog(); // 开 ...
小程序bindtap和cachetap的区别
<view bindtap='a'> 1 <view bindtap='b'> 2 <view bindtap='c'> 3 </view> </ ...
P2921 [USACO08DEC]在农场万圣节Trick or Treat on the Farm
对于一个牛,它存在两种状态:1.处于联通分量 2.不处于联通分量.对于处于联通分量的牛,求出联通分量的大小:对于不处于联通分量的牛,求出其距离联通分量的路程+联通分量大小. 不同的联通分量,染上不同的 ...
linux 如何截取一段时间内log日志
截取一段时间内的log日志可以使用sed命令对log文件进行抽取操作: 1,sed查看某时间段到现在的系统日志:sed -n '/May 20 17/,$p' /var/log/messages | ...
【转】子类会调用父类的@PostConstruct方法
如果一个类用@Service或@Component,那么只需要用@PostConstruct修饰某个方法,该方法能在类实例化的过程中自动执行,相当于类的构造函数.同时,具备了构造函数不具备的功能. @ ...

MonggoDB(二)