MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法:

* Mongodb三种分组方式:

* 1、group(先筛选再分组,不支持分片,对数据量有所限制,效率不高)   http://php.net/manual/zh/mongocollection.group.php

* 2、mapreduce(基于js引擎,单线程执行,效率较低,适合用做后台统计等)

* 3、aggregate(推荐) (如果你的PHP的mongodb驱动版本需>=1.3.0,推荐你使用aggregate,性能要高很多,并且使用上要简单些,不过1.3的目前还不支持账户认证模式,可以通过http://pecl.php.net/package/mongo查看更新日志和Bug)   http://php.net/manual/zh/mongocollection.aggregate.php

下面就来看下mapreduce方式:

Mongodb官网对MapReduce介绍:

Map/reduce in MongoDB is useful for batch processing of data and aggregation operations. It is similar in spirit to using something like Hadoop with all input coming from a collection and output going to a collection. Often, in a situation where you would have
used GROUP BY in SQL, map/reduce is the right tool in MongoDB.

大致意思是:Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作,有点类似于使用Hadoop对集合数据进行处理,所有输入数据都是从集合中获取,而MapReduce后输出的数据也都会写入到集合中。通常类似于我们在SQL中使用Group By语句一样。
使用MapReduce要实现两个函数:Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录,将key与value传给Reduce函数进行处理。Map函数和Reduce函数是使用Javascript编写的,并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。

MapReduce命令如下:
  1. db.runCommand(
  2. { mapreduce : <collection>,
  3. map : <mapfunction>,
  4. reduce : <reducefunction>
  5. [, query : <query filter object>]
  6. [, sort : <sort the query.  useful for optimization>]
  7. [, limit : <number of objects to return from collection>]
  8. [, out : <output-collection name>]
  9. [, keeptemp: <true|false>]
  10. [, finalize : <finalizefunction>]
  11. [, scope : <object where fields go into javascript global scope >]
  12. [, verbose : true]
  13. }
  14. );

参数说明:

mapreduce:要操作的目标集合

map:映射函数(生成键值对序列,作为Reduce函数的参数)

reduce:统计函数

query:目标记录过滤

sort:对目标记录排序

limit:限制目标记录数量

out:统计结果存放集合(如果不指定则使用临时集合,在客户端断开后自动删除)

keeptemp:是否保留临时集合

finalize:最终处理函数(对reduce返回结果执行最终整理后存入结果集合)

scope:向map、reduce、finalize导入外部变量

verbose:显示详细的时间统计信息

map函数

map函数调用当前对象,并处里对象的属性,传值给reduce,map方法使用this来操作当前对象,最少调用一次emit(key,value)方法来向reduce提供参数,其中emit的key为最终数据的id。

reduce函数

接收一个值和数组,根据需要对数组进行合并分组等处理,reduce的key就是emit(key,value)的key,value_array是同个key对应的多个value数组。

Finalize函数

此函数为可选函数,可在执行完map和reduce后执行,对最后的数据进行统一处理。

看完基本介绍,我们再来看一个实例:

已知集合feed,测试数据如下:
  1. {
  2. "_id": ObjectId("50ccb3f91e937e2927000004"),
  3. "feed_type": 1,
  4. "to_user": 234,
  5. "time_line": "2012-12-16 01:26:00"
  6. }
  7. {
  8. "_id": ObjectId("50ccb3ef1e937e0727000004"),
  9. "feed_type": 8,
  10. "to_user": 123,
  11. "time_line": "2012-12-16 01:26:00"
  12. }
  13. {
  14. "_id": ObjectId("50ccb3e31e937e0a27000003"),
  15. "feed_type": 1,
  16. "to_user": 123,
  17. "time_line": "2012-12-16 01:26:00"
  18. }
  19. {
  20. "_id": ObjectId("50ccb3d31e937e0927000001"),
  21. "feed_type": 1,
  22. "to_user": 123,
  23. "time_line": "2012-12-16 01:26:00"
  24. }

我们按动态类型feed_type和用户to_user进行分组统计,实现结果:


feed_type to_user cout
1 234 1
8 123 1
1 123 2








实现代码:

  1. //编写map函数
  2. $map = '
  3. function() {
  4. var key = {to_user:this.to_user,feed_type:this.feed_type};
  5. var value = {count:1};
  6. emit(key,value);
  7. } ';
  8. //reduce 函数
  9. $reduce = '
  10. function(key, values) {
  11. var ret = {count:0};
  12. for(var i in values) {
  13. ret.count += 1;
  14. }
  15. return ret;
  16. }';
  17. //查询条件
  18. $query = null;  //本实例中没有查询条件,设置为null
  1. $mongo = new Mongo('mongodb://root:root@127.0.0.1: 28017/'); //链接mongodb,账号和密码为root,root
  2. $instance = $mongo->selectDB("testdb");
  3. //执行此命令后,会创建feed_temp_res的临时集合,并将统计后的数据放在该集合中
  4. $cmd = $instance->command(array(
  5. 'mapreduce' => 'feed',
  6. 'map'       => $map,
  7. 'reduce'    => $reduce,
  8. 'query' => $query,
  9. 'out' => 'feed_temp_res'
  10. ));
  11. //查询临时集合中的统计数据,验证统计结果是否和预期结果一致
  12. $cursor = $instance->selectCollection('feed_temp_res')->find();
  13. $result = array();
  14. try {
  15. while ($cursor->hasNext())
  16. {
  17. $result[] = $cursor->getNext();
  18. }
  19. }
  20. catch (MongoConnectionException $e)
  21. {
  22. echo $e->getMessage();
  23. }
  24. catch (MongoCursorTimeoutException $e)
  25. {
  26. echo $e->getMessage();
  27. }
  28. catch(Exception $e){
  29. echo $e->getMessage();
  30. }
  31. //test
  32. var_dump($result);

下面是输出的结果,和预期结果一致


  1. {
  2. "_id": {
  3. "to_user": 234,
  4. "feed_type": 1
  5. },
  6. "value": {
  7. "count": 1
  8. }
  9. }
  10. {
  11. "_id": {
  12. "to_user": 123,
  13. "feed_type": 8
  14. },
  15. "value": {
  16. "count": 1
  17. }
  18. }
  19. {
  20. "_id": {
  21. "to_user": 123,
  22. "feed_type": 1
  23. },
  24. "value": {
  25. "count": 2
  26. }
  27. }

以上只是简单的统计实现,你可以实现复杂的条件统计编写复杂的reduce函数,可以增加查询条件,排序等等。

附上mapReduce数据库处理函数(简单封装)
  1. /**
  2. * mapReduce分组
  3. *
  4. * @param string $table_name 表名(要操作的目标集合名)
  5. * @param string $map 映射函数(生成键值对序列,作为 reduce 函数参数)
  6. * @param string $reduce 统计处理函数
  7. * @param array  $query 过滤条件 如:array('uid'=>123)
  8. * @param array  $sort 排序
  9. * @param number $limit 限制的目标记录数
  10. * @param string $out 统计结果存放集合 (不指定则使用tmp_mr_res_$table_name, 1.8以上版本需指定)
  11. * @param bool   $keeptemp 是否保留临时集合
  12. * @param string $finalize 最终处理函数 (对reduce返回结果进行最终整理后存入结果集合)
  13. * @param string $scope 向 map、reduce、finalize 导入外部js变量
  14. * @param bool   $jsMode 是否减少执行过程中BSON和JS的转换,默认true(注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,//true时BSON-->js-->map-->reduce-->BSON)
  15. * @param bool   $verbose 是否产生更加详细的服务器日志
  16. * @param bool   $returnresult 是否返回新的结果集
  17. * @param array  &$cmdresult 返回mp命令执行结果 array("errmsg"=>"","code"=>13606,"ok"=>0) ok=1表示执行命令成功
  18. * @return
  19. */
  20. function mapReduce($table_name,$map,$reduce,$query=null,$sort=null,$limit=0,$out='',$keeptemp=true,$finalize=null,$scope=null,$jsMode=true,$verbose=true,$returnresult=true,&$cmdresult){
  21. if(empty($table_name) || empty($map) || empty($reduce)){
  22. return null;
  23. }
  24. $map = new MongoCode($map);
  25. $reduce = new MongoCode($reduce);
  26. if(empty($out)){
  27. $out = 'tmp_mr_res_'.$table_name;
  28. }
  29. $cmd = array(
  30. 'mapreduce' => $table_name,
  31. 'map'       => $map,
  32. 'reduce'    => $reduce,
  33. 'out'       =>$out
  34. );
  35. if(!empty($query) && is_array($query)){
  36. array_push($cmd, array('query'=>$query));
  37. }
  38. if(!empty($sort) && is_array($sort)){
  39. array_push($cmd, array('sort'=>$query));
  40. }
  41. if(!empty($limit) && is_int($limit) && $limit>0){
  42. array_push($cmd, array('limit'=>$limit));
  43. }
  44. if(!empty($keeptemp) && is_bool($keeptemp)){
  45. array_push($cmd, array('keeptemp'=>$keeptemp));
  46. }
  47. if(!empty($finalize)){
  48. $finalize = new Mongocode($finalize);
  49. array_push($cmd, array('finalize'=>$finalize));
  50. }
  51. if(!empty($scope)){
  52. array_push($cmd, array('scope'=>$scope));
  53. }
  54. if(!empty($jsMode) && is_bool($jsMode)){
  55. array_push($cmd, array('jsMode'=>$jsMode));
  56. }
  57. if(!empty($verbose) && is_bool($verbose)){
  58. array_push($cmd, array('verbose'=>$verbose));
  59. }
  60. $dbname = $this->curr_db_name;
  61. $cmdresult = $this->mongo->$dbname->command($cmd);
  62. if($returnresult){
  63. if($cmdresult && $cmdresult['ok']==1){
  64. $result = $this->find($out, array());
  65. }
  66. }
  67. if($keeptemp==false){
  68. //删除集合
  69. $this->mongo->$dbname->dropCollection($out);
  70. }
  71. return $result;
  72. }

MongoDB官方网站介绍:


Aggregation介绍 http://docs.mongodb.org/manual/aggregation/

MongoDB的MapReduce用法及php示例代码的更多相关文章

  1. C# 6新特性及示例代码

    今天推荐的其实是一个Github开源项目,不过这个开源项目是专门介绍C# 6的最新特性,并给出了示例代码. 我们知道,微软即将发布Windows 10和Visual Studio 2015,在VS20 ...

  2. C/C++ 开源库及示例代码

    C/C++ 开源库及示例代码 Table of Contents 说明 1 综合性的库 2 数据结构 & 算法 2.1 容器 2.1.1 标准容器 2.1.2 Lockfree 的容器 2.1 ...

  3. MongoDB 的 MapReduce 大数据统计统计挖掘

    MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法: * Mongodb三种分组方式 ...

  4. mailgun 发邮件示例代码Python版

    1 首先到mailgun官网注册账号,并激活账号 点击domains,进入默认的域名,最底下那个sandbox域名就是默认的测试域名 如果自己有域名,也可以添加自己的域名测试,具体参考:ssr pan ...

  5. MongoDb 用 mapreduce 统计留存率

    MongoDb 用 mapreduce 统计留存率(金庆的专栏)留存的定义采用的是新增账号第X日:某日新增的账号中,在新增日后第X日有登录行为记为留存 输出如下:(类同友盟的留存率显示)留存用户注册时 ...

  6. mongoDB实现MapReduce

    一.MongoDB Map Reduce Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).MongoDB提供的Ma ...

  7. MongoDB:Map-Reduce

    Map-reduce是一个考虑大型数据得到实用聚集结果的数据处理程式(paradigm).针对map-reduce操作,MongoDB提供来mapreduce命令. 考虑以下的map-reduce操作 ...

  8. pyspider示例代码三:用PyQuery解析页面数据

    本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...

  9. c语言智能指针 附完整示例代码

    是的,你没有看错, 不是c++不是c#, 就是你认识的那个c语言. 在很长一段时间里,c的内存管理问题, 层出不穷,不是编写的时候特别费劲繁琐, 就是碰到内存泄漏排查的各种困难, 特别在多线程环境下, ...

随机推荐

  1. spring深入了解心得

    spring 主要核心组件 :Core.上下文(Context) .实体(Bean): spring 主要由两大特色:控制反转(IOC).面向对象(AOP): spring中Core主要用于组建Bea ...

  2. 【Linux-学习笔记-不定期更新】

    command--help ./当前的路径 目录操作命令: mkdir  创建目录: 创建多级目录 : mkdir -p 查看目录:ls ls -a:显示所有文件,包括隐藏文件 隐藏文件以.开头 ls ...

  3. 复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

    从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负责的模块connector就派上了用场. ...

  4. 【bzoj1066】: [SCOI2007]蜥蜴 图论-最大流

    [bzoj1066]: [SCOI2007]蜥蜴 把石柱拆点,流量为高度 然后S与蜥蜴连流量1的边 互相能跳到的石柱连inf的边 石柱能到边界外的和T连inf的边 然后跑dinic就好了 /* htt ...

  5. 【BZOJ3589】动态树 树链剖分+线段树

    Description 别忘了这是一棵动态树, 每时每刻都是动态的. 小明要求你在这棵树上维护两种事件 事件0: 这棵树长出了一些果子, 即某个子树中的每个节点都会长出K个果子. 事件1: 小明希望你 ...

  6. JS编程模式之初始化分支与惰性初始

    不同的浏览器对于相同或相似的方法可能有不同的实现.这时,您需要依据当前的浏览器的支持方法来选择对应的执行分支.这类分支有可能与很多,因此可能会减缓脚本的执行速度.但非要等到运行时才能分支吗?我们完全可 ...

  7. 公司拷贝回家的工程用sts导入clean package报错java.lang.NoClassDefFoundError

    从公司拷贝工程回家加班,用相同版本的sts和jdk但是run as    maven build   clean package 总是报错java.lang.NoClassDefFoundError: ...

  8. Windows NLB搭配IIS的ARR搭建高可用环境(转载)

    原文地址:http://www.cnblogs.com/shanyou/archive/2010/04/28/1723276.html 在现行的许多网络应用中,有时一台服务器往往不能满足客户端的要求, ...

  9. 解决Nginx+PHP-FPM出现502(Bad Gateway)错误问题

    Bad Gateway就是性能或资源不足所导致了,我们浏览网页时常常会碰到一些nginx环境出现这类提醒了,下面我来给大家解决在使用nginx服务器时出来的502(Bad Gateway)错误. 买了 ...

  10. SDUT OJ 顺序表应用4:元素位置互换之逆置算法

    顺序表应用4:元素位置互换之逆置算法 Time Limit: 10 ms Memory Limit: 570 KiB Submit Statistic Discuss Problem Descript ...