MongoDB的MapReduce用法及php示例代码
MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法:
* Mongodb三种分组方式:
* 1、group(先筛选再分组,不支持分片,对数据量有所限制,效率不高) http://php.net/manual/zh/mongocollection.group.php
* 2、mapreduce(基于js引擎,单线程执行,效率较低,适合用做后台统计等)
* 3、aggregate(推荐) (如果你的PHP的mongodb驱动版本需>=1.3.0,推荐你使用aggregate,性能要高很多,并且使用上要简单些,不过1.3的目前还不支持账户认证模式,可以通过http://pecl.php.net/package/mongo查看更新日志和Bug) http://php.net/manual/zh/mongocollection.aggregate.php
下面就来看下mapreduce方式:
Mongodb官网对MapReduce介绍:
Map/reduce in MongoDB is useful for batch processing of data and aggregation operations. It is similar in spirit to using something like Hadoop with all input coming from a collection and output going to a collection. Often, in a situation where you would have
used GROUP BY in SQL, map/reduce is the right tool in MongoDB.
- db.runCommand(
- { mapreduce : <collection>,
- map : <mapfunction>,
- reduce : <reducefunction>
- [, query : <query filter object>]
- [, sort : <sort the query. useful for optimization>]
- [, limit : <number of objects to return from collection>]
- [, out : <output-collection name>]
- [, keeptemp: <true|false>]
- [, finalize : <finalizefunction>]
- [, scope : <object where fields go into javascript global scope >]
- [, verbose : true]
- }
- );
参数说明:
mapreduce:要操作的目标集合
map:映射函数(生成键值对序列,作为Reduce函数的参数)
reduce:统计函数
query:目标记录过滤
sort:对目标记录排序
limit:限制目标记录数量
out:统计结果存放集合(如果不指定则使用临时集合,在客户端断开后自动删除)
keeptemp:是否保留临时集合
finalize:最终处理函数(对reduce返回结果执行最终整理后存入结果集合)
scope:向map、reduce、finalize导入外部变量
verbose:显示详细的时间统计信息
map函数调用当前对象,并处里对象的属性,传值给reduce,map方法使用this来操作当前对象,最少调用一次emit(key,value)方法来向reduce提供参数,其中emit的key为最终数据的id。
接收一个值和数组,根据需要对数组进行合并分组等处理,reduce的key就是emit(key,value)的key,value_array是同个key对应的多个value数组。
此函数为可选函数,可在执行完map和reduce后执行,对最后的数据进行统一处理。
- {
- "_id": ObjectId("50ccb3f91e937e2927000004"),
- "feed_type": 1,
- "to_user": 234,
- "time_line": "2012-12-16 01:26:00"
- }
- {
- "_id": ObjectId("50ccb3ef1e937e0727000004"),
- "feed_type": 8,
- "to_user": 123,
- "time_line": "2012-12-16 01:26:00"
- }
- {
- "_id": ObjectId("50ccb3e31e937e0a27000003"),
- "feed_type": 1,
- "to_user": 123,
- "time_line": "2012-12-16 01:26:00"
- }
- {
- "_id": ObjectId("50ccb3d31e937e0927000001"),
- "feed_type": 1,
- "to_user": 123,
- "time_line": "2012-12-16 01:26:00"
- }
我们按动态类型feed_type和用户to_user进行分组统计,实现结果:
feed_type | to_user | cout |
1 | 234 | 1 |
8 | 123 | 1 |
1 | 123 | 2 |
- //编写map函数
- $map = '
- function() {
- var key = {to_user:this.to_user,feed_type:this.feed_type};
- var value = {count:1};
- emit(key,value);
- } ';
- //reduce 函数
- $reduce = '
- function(key, values) {
- var ret = {count:0};
- for(var i in values) {
- ret.count += 1;
- }
- return ret;
- }';
- //查询条件
- $query = null; //本实例中没有查询条件,设置为null
- $mongo = new Mongo('mongodb://root:root@127.0.0.1: 28017/'); //链接mongodb,账号和密码为root,root
- $instance = $mongo->selectDB("testdb");
- //执行此命令后,会创建feed_temp_res的临时集合,并将统计后的数据放在该集合中
- $cmd = $instance->command(array(
- 'mapreduce' => 'feed',
- 'map' => $map,
- 'reduce' => $reduce,
- 'query' => $query,
- 'out' => 'feed_temp_res'
- ));
- //查询临时集合中的统计数据,验证统计结果是否和预期结果一致
- $cursor = $instance->selectCollection('feed_temp_res')->find();
- $result = array();
- try {
- while ($cursor->hasNext())
- {
- $result[] = $cursor->getNext();
- }
- }
- catch (MongoConnectionException $e)
- {
- echo $e->getMessage();
- }
- catch (MongoCursorTimeoutException $e)
- {
- echo $e->getMessage();
- }
- catch(Exception $e){
- echo $e->getMessage();
- }
- //test
- var_dump($result);
下面是输出的结果,和预期结果一致
- {
- "_id": {
- "to_user": 234,
- "feed_type": 1
- },
- "value": {
- "count": 1
- }
- }
- {
- "_id": {
- "to_user": 123,
- "feed_type": 8
- },
- "value": {
- "count": 1
- }
- }
- {
- "_id": {
- "to_user": 123,
- "feed_type": 1
- },
- "value": {
- "count": 2
- }
- }
- /**
- * mapReduce分组
- *
- * @param string $table_name 表名(要操作的目标集合名)
- * @param string $map 映射函数(生成键值对序列,作为 reduce 函数参数)
- * @param string $reduce 统计处理函数
- * @param array $query 过滤条件 如:array('uid'=>123)
- * @param array $sort 排序
- * @param number $limit 限制的目标记录数
- * @param string $out 统计结果存放集合 (不指定则使用tmp_mr_res_$table_name, 1.8以上版本需指定)
- * @param bool $keeptemp 是否保留临时集合
- * @param string $finalize 最终处理函数 (对reduce返回结果进行最终整理后存入结果集合)
- * @param string $scope 向 map、reduce、finalize 导入外部js变量
- * @param bool $jsMode 是否减少执行过程中BSON和JS的转换,默认true(注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,//true时BSON-->js-->map-->reduce-->BSON)
- * @param bool $verbose 是否产生更加详细的服务器日志
- * @param bool $returnresult 是否返回新的结果集
- * @param array &$cmdresult 返回mp命令执行结果 array("errmsg"=>"","code"=>13606,"ok"=>0) ok=1表示执行命令成功
- * @return
- */
- function mapReduce($table_name,$map,$reduce,$query=null,$sort=null,$limit=0,$out='',$keeptemp=true,$finalize=null,$scope=null,$jsMode=true,$verbose=true,$returnresult=true,&$cmdresult){
- if(empty($table_name) || empty($map) || empty($reduce)){
- return null;
- }
- $map = new MongoCode($map);
- $reduce = new MongoCode($reduce);
- if(empty($out)){
- $out = 'tmp_mr_res_'.$table_name;
- }
- $cmd = array(
- 'mapreduce' => $table_name,
- 'map' => $map,
- 'reduce' => $reduce,
- 'out' =>$out
- );
- if(!empty($query) && is_array($query)){
- array_push($cmd, array('query'=>$query));
- }
- if(!empty($sort) && is_array($sort)){
- array_push($cmd, array('sort'=>$query));
- }
- if(!empty($limit) && is_int($limit) && $limit>0){
- array_push($cmd, array('limit'=>$limit));
- }
- if(!empty($keeptemp) && is_bool($keeptemp)){
- array_push($cmd, array('keeptemp'=>$keeptemp));
- }
- if(!empty($finalize)){
- $finalize = new Mongocode($finalize);
- array_push($cmd, array('finalize'=>$finalize));
- }
- if(!empty($scope)){
- array_push($cmd, array('scope'=>$scope));
- }
- if(!empty($jsMode) && is_bool($jsMode)){
- array_push($cmd, array('jsMode'=>$jsMode));
- }
- if(!empty($verbose) && is_bool($verbose)){
- array_push($cmd, array('verbose'=>$verbose));
- }
- $dbname = $this->curr_db_name;
- $cmdresult = $this->mongo->$dbname->command($cmd);
- if($returnresult){
- if($cmdresult && $cmdresult['ok']==1){
- $result = $this->find($out, array());
- }
- }
- if($keeptemp==false){
- //删除集合
- $this->mongo->$dbname->dropCollection($out);
- }
- return $result;
- }
Aggregation介绍 http://docs.mongodb.org/manual/aggregation/
MongoDB的MapReduce用法及php示例代码的更多相关文章
- C# 6新特性及示例代码
今天推荐的其实是一个Github开源项目,不过这个开源项目是专门介绍C# 6的最新特性,并给出了示例代码. 我们知道,微软即将发布Windows 10和Visual Studio 2015,在VS20 ...
- C/C++ 开源库及示例代码
C/C++ 开源库及示例代码 Table of Contents 说明 1 综合性的库 2 数据结构 & 算法 2.1 容器 2.1.1 标准容器 2.1.2 Lockfree 的容器 2.1 ...
- MongoDB 的 MapReduce 大数据统计统计挖掘
MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法: * Mongodb三种分组方式 ...
- mailgun 发邮件示例代码Python版
1 首先到mailgun官网注册账号,并激活账号 点击domains,进入默认的域名,最底下那个sandbox域名就是默认的测试域名 如果自己有域名,也可以添加自己的域名测试,具体参考:ssr pan ...
- MongoDb 用 mapreduce 统计留存率
MongoDb 用 mapreduce 统计留存率(金庆的专栏)留存的定义采用的是新增账号第X日:某日新增的账号中,在新增日后第X日有登录行为记为留存 输出如下:(类同友盟的留存率显示)留存用户注册时 ...
- mongoDB实现MapReduce
一.MongoDB Map Reduce Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).MongoDB提供的Ma ...
- MongoDB:Map-Reduce
Map-reduce是一个考虑大型数据得到实用聚集结果的数据处理程式(paradigm).针对map-reduce操作,MongoDB提供来mapreduce命令. 考虑以下的map-reduce操作 ...
- pyspider示例代码三:用PyQuery解析页面数据
本系列文章主要记录和讲解pyspider的示例代码,希望能抛砖引玉.pyspider示例代码官方网站是http://demo.pyspider.org/.上面的示例代码太多,无从下手.因此本人找出一些 ...
- c语言智能指针 附完整示例代码
是的,你没有看错, 不是c++不是c#, 就是你认识的那个c语言. 在很长一段时间里,c的内存管理问题, 层出不穷,不是编写的时候特别费劲繁琐, 就是碰到内存泄漏排查的各种困难, 特别在多线程环境下, ...
随机推荐
- JSON Assertion(JSON断言)
JSON断言允许你完成对JSON文档的校验,首先,如果如果数据不是JSON,则会解析失败:其次,JMeter会用指定语法寻找指定的path,如果没有找到,则会失败:第三,如果验证期望值为null,JM ...
- conda install 安装太慢怎么办?
小编我在安装tensorflow和keras的过程中,安装进程太慢,小木棍一直在转圈...抓狂... 如何解决??? 使用清华提供的anaconda镜像,使用以后真的很快! Anaconda 镜像使用 ...
- 51 nod 1267 4个数和为0
1267 4个数和为0 基准时间限制:1 秒 空间限制:131072 KB 分值: 20 难度:3级算法题 收藏 取消关注 给出N个整数,你来判断一下是否能够选出4个数,他们的和为0,可以则输出& ...
- C# Winform中自定义筛选及自带统计行的Datagridview控件
网上分享有很多种自制DGV控件,都有不小的缺陷. 没办法,按需求自己定制了一个. 一.过滤方面类似于Excel的筛选功能.支持右键菜单筛选,同时也支持在文本框输入文字按焦点列进行筛选: 二.统计行我采 ...
- Docker Community Edition 镜像使用帮助
1.什么是Docker 容器技术 在计算机的世界中,容器拥有一段漫长且传奇的历史.容器与管理程序虚拟化 (hypervisor virtualization,HV)有所不同,管理程序虚拟化通过中间层将 ...
- UML之用例图详解
原文链接:https://blog.csdn.net/mj_ww/article/details/53020080 UML,即Unified Model Language,统一建模语言.百度百科对他的 ...
- 2008R2 无法安装 HDP Apache 系列服务解决方案
执行下面的 PS 就好了. 特别是 第三行在执行的时候选择 [A] Set-ExecutionPolicy "AllSigned" Enable-PSRemoting Set- ...
- (C/C++) 基本排序法
C++ Class 宣告 class Sort{ private: void Merge(int *arr, int front, int mid, int end); int Partition(i ...
- Image组件
/* Image* 用于显示图片的组件,包括网络图片,静态资源 * 常用性能: * resizeMode 图片适应模式 cover , contain , stretch * source 图片的引用 ...
- springboot整合activemq加入会签,自动重发机制,持久化
消费者客户端成功接收一条消息的标志是:这条消息被签收. 消费者客户端成功接收一条消息一般包括三个阶段: 1.消费者接收消息,也即从MessageConsumer的receive方法返 ...