MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法:

* Mongodb三种分组方式:

* 1、group(先筛选再分组,不支持分片,对数据量有所限制,效率不高)

* 2、mapreduce(基于js引擎,单线程执行,效率较低,适合用做后台统计等)

* 3、aggregate(推荐) (如果你的PHP的mongodb驱动版本需>=1.3.0,推荐你使用aggregate,性能要高很多,并且使用上要简单些,不过1.3的目前还不支持账户认证模式,可以通过http://pecl.php.net/package/mongo查看更新日志和Bug)

下面就来看下mapreduce方式:

Mongodb官网对MapReduce介绍:

Map/reduce in MongoDB is useful for batch processing of data and aggregation operations. It is similar in spirit to using something like Hadoop with all input coming from a collection and output going to a collection. Often, in a situation where you would have used GROUP BY in SQL, map/reduce is the right tool in MongoDB.

大致意思是:Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作,有点类似于使用Hadoop对集合数据进行处理,所有输入数据都是从集合中获取,而MapReduce后输出的数据也都会写入到集合中。通常类似于我们在SQL中使用Group By语句一样。
使用MapReduce要实现两个函数:Map和Reduce。Map函数调用emit(key,value)遍历集合中所有的记录,将key与value传给Reduce函数进行处理。Map函数和Reduce函数是使用Javascript编写的,并可以通过db.runCommand或mapreduce命令来执行MapReduce操作。
 
MapReduce命令如下:
  1. db.runCommand(
  2. { mapreduce : <collection>,
  3. map : <mapfunction>,
  4. reduce : <reducefunction>
  5. [, query : <query filter object>]
  6. [, sort : <sort the query.  useful for optimization>]
  7. [, limit : <number of objects to return from collection>]
  8. [, out : <output-collection name>]
  9. [, keeptemp: <true|false>]
  10. [, finalize : <finalizefunction>]
  11. [, scope : <object where fields go into javascript global scope >]
  12. [, verbose : true]
  13. }
  14. );

参数说明:

mapreduce:要操作的目标集合

map:映射函数(生成键值对序列,作为Reduce函数的参数)

reduce:统计函数

query:目标记录过滤

sort:对目标记录排序

limit:限制目标记录数量

out:统计结果存放集合(如果不指定则使用临时集合,在客户端断开后自动删除)

keeptemp:是否保留临时集合

finalize:最终处理函数(对reduce返回结果执行最终整理后存入结果集合)

scope:向map、reduce、finalize导入外部变量

verbose:显示详细的时间统计信息

map函数
map函数调用当前对象,并处里对象的属性,传值给reduce,map方法使用this来操作当前对象,最少调用一次emit(key,value)方法来向reduce提供参数,其中emit的key为最终数据的id。
 
reduce函数
接收一个值和数组,根据需要对数组进行合并分组等处理,reduce的key就是emit(key,value)的key,value_array是同个key对应的多个value数组。
 
Finalize函数
此函数为可选函数,可在执行完map和reduce后执行,对最后的数据进行统一处理。
 
看完基本介绍,我们再来看一个实例:
 
已知集合feed,测试数据如下:
  1. {
  2. "_id": ObjectId("50ccb3f91e937e2927000004"),
  3. "feed_type": 1,
  4. "to_user": 234,
  5. "time_line": "2012-12-16 01:26:00"
  6. }
  7. {
  8. "_id": ObjectId("50ccb3ef1e937e0727000004"),
  9. "feed_type": 8,
  10. "to_user": 123,
  11. "time_line": "2012-12-16 01:26:00"
  12. }
  13. {
  14. "_id": ObjectId("50ccb3e31e937e0a27000003"),
  15. "feed_type": 1,
  16. "to_user": 123,
  17. "time_line": "2012-12-16 01:26:00"
  18. }
  19. {
  20. "_id": ObjectId("50ccb3d31e937e0927000001"),
  21. "feed_type": 1,
  22. "to_user": 123,
  23. "time_line": "2012-12-16 01:26:00"
  24. }

我们按动态类型feed_type和用户to_user进行分组统计,实现结果:

feed_type to_user cout
1 234 1
8 123 1
1 123 2
 
 
 
 
 
 
 
实现代码:
 
  1. //编写map函数
  2. $map = '
  3. function() {
  4. var key = {to_user:this.to_user,feed_type:this.feed_type};
  5. var value = {count:1};
  6. emit(key,value);
  7. } ';
  8. //reduce 函数
  9. $reduce = '
  10. function(key, values) {
  11. var ret = {count:0};
  12. for(var i in values) {
  13. ret.count += 1;
  14. }
  15. return ret;
  16. }';
  17. //查询条件
  18. $query = null;  //本实例中没有查询条件,设置为null
  1. $mongo = new Mongo('mongodb://root:root@127.0.0.1: 28017/'); //链接mongodb,账号和密码为root,root
  2. $instance = $mongo->selectDB("testdb");
  3. //执行此命令后,会创建feed_temp_res的临时集合,并将统计后的数据放在该集合中
  4. $cmd = $instance->command(array(
  5. 'mapreduce' => 'feed',
  6. 'map'       => $map,
  7. 'reduce'    => $reduce,
  8. 'query' => $query,
  9. 'out' => 'feed_temp_res'
  10. ));
  11. //查询临时集合中的统计数据,验证统计结果是否和预期结果一致
  12. $cursor = $instance->selectCollection('feed_temp_res')->find();
  13. $result = array();
  14. try {
  15. while ($cursor->hasNext())
  16. {
  17. $result[] = $cursor->getNext();
  18. }
  19. }
  20. catch (MongoConnectionException $e)
  21. {
  22. echo $e->getMessage();
  23. }
  24. catch (MongoCursorTimeoutException $e)
  25. {
  26. echo $e->getMessage();
  27. }
  28. catch(Exception $e){
  29. echo $e->getMessage();
  30. }
  31. //test
  32. var_dump($result);

下面是输出的结果,和预期结果一致

 
  1. {
  2. "_id": {
  3. "to_user": 234,
  4. "feed_type": 1
  5. },
  6. "value": {
  7. "count": 1
  8. }
  9. }
  10. {
  11. "_id": {
  12. "to_user": 123,
  13. "feed_type": 8
  14. },
  15. "value": {
  16. "count": 1
  17. }
  18. }
  19. {
  20. "_id": {
  21. "to_user": 123,
  22. "feed_type": 1
  23. },
  24. "value": {
  25. "count": 2
  26. }
  27. }
以上只是简单的统计实现,你可以实现复杂的条件统计编写复杂的reduce函数,可以增加查询条件,排序等等。
 
附上mapReduce数据库处理函数(简单封装)
  1. /**
  2. * mapReduce分组
  3. *
  4. * @param string $table_name 表名(要操作的目标集合名)
  5. * @param string $map 映射函数(生成键值对序列,作为 reduce 函数参数)
  6. * @param string $reduce 统计处理函数
  7. * @param array  $query 过滤条件 如:array('uid'=>123)
  8. * @param array  $sort 排序
  9. * @param number $limit 限制的目标记录数
  10. * @param string $out 统计结果存放集合 (不指定则使用tmp_mr_res_$table_name, 1.8以上版本需指定)
  11. * @param bool   $keeptemp 是否保留临时集合
  12. * @param string $finalize 最终处理函数 (对reduce返回结果进行最终整理后存入结果集合)
  13. * @param string $scope 向 map、reduce、finalize 导入外部js变量
  14. * @param bool   $jsMode 是否减少执行过程中BSON和JS的转换,默认true(注:false时 BSON-->JS-->map-->BSON-->JS-->reduce-->BSON,可处理非常大的mapreduce,//true时BSON-->js-->map-->reduce-->BSON)
  15. * @param bool   $verbose 是否产生更加详细的服务器日志
  16. * @param bool   $returnresult 是否返回新的结果集
  17. * @param array  &$cmdresult 返回mp命令执行结果 array("errmsg"=>"","code"=>13606,"ok"=>0) ok=1表示执行命令成功
  18. * @return
  19. */
  20. function mapReduce($table_name,$map,$reduce,$query=null,$sort=null,$limit=0,$out='',$keeptemp=true,$finalize=null,$scope=null,$jsMode=true,$verbose=true,$returnresult=true,&$cmdresult){
  21. if(empty($table_name) || empty($map) || empty($reduce)){
  22. return null;
  23. }
  24. $map = new MongoCode($map);
  25. $reduce = new MongoCode($reduce);
  26. if(empty($out)){
  27. $out = 'tmp_mr_res_'.$table_name;
  28. }
  29. $cmd = array(
  30. 'mapreduce' => $table_name,
  31. 'map'       => $map,
  32. 'reduce'    => $reduce,
  33. 'out'       =>$out
  34. );
  35. if(!empty($query) && is_array($query)){
  36. array_push($cmd, array('query'=>$query));
  37. }
  38. if(!empty($sort) && is_array($sort)){
  39. array_push($cmd, array('sort'=>$query));
  40. }
  41. if(!empty($limit) && is_int($limit) && $limit>0){
  42. array_push($cmd, array('limit'=>$limit));
  43. }
  44. if(!empty($keeptemp) && is_bool($keeptemp)){
  45. array_push($cmd, array('keeptemp'=>$keeptemp));
  46. }
  47. if(!empty($finalize)){
  48. $finalize = new Mongocode($finalize);
  49. array_push($cmd, array('finalize'=>$finalize));
  50. }
  51. if(!empty($scope)){
  52. array_push($cmd, array('scope'=>$scope));
  53. }
  54. if(!empty($jsMode) && is_bool($jsMode)){
  55. array_push($cmd, array('jsMode'=>$jsMode));
  56. }
  57. if(!empty($verbose) && is_bool($verbose)){
  58. array_push($cmd, array('verbose'=>$verbose));
  59. }
  60. $dbname = $this->curr_db_name;
  61. $cmdresult = $this->mongo->$dbname->command($cmd);
  62. if($returnresult){
  63. if($cmdresult && $cmdresult['ok']==1){
  64. $result = $this->find($out, array());
  65. }
  66. }
  67. if($keeptemp==false){
  68. //删除集合
  69. $this->mongo->$dbname->dropCollection($out);
  70. }
  71. return $result;
  72. }

-------------------------------------------------------------------------------------------

MongoDB 的 MapReduce 相当于 Mysql 中的"group by", 所以在 MongoDB 上使用 Map/Reduce 进行并行"统计"很容易。

使用 MapReduce 要实现两个函数 Map 函数和 Reduce 函数,Map 函数调用 emit(key, value), 遍历collection 中所有记录, key 与 value 传递给 Reduce 函数进行处理。 函数和 Reduce 将 Map 函数可以使用 JavaScript 来实现,可以通db.runCommand 或 mapReduce 命令来执行一个 MapReduce的操作。

MapReduce函数的参数列表如下

db.runCommand(
{ mapreduce : <collection>,
map : <mapfunction>,
reduce : <reducefunction>
[, query : <query filter object>]
[, sort : <sort the query. useful for optimization>]
[, limit : <number of objects to return from collection>]
[, out : <output-collection name>]
[, keeptemp: <true|false>]
[, finalize : <finalizefunction>]
[, scope : <object where fields go into javascript global scope >]
[, verbose : true]
}
);

或者这么写:

db.collection.mapReduce(
<map>,
<reduce>,
{
<out>,
<query>,
<sort>,
<limit>,
<keytemp>,
<finalize>,
<scope>,
<jsMode>,
<verbose>
}
)
  • mapreduce:指定要进行mapreduce处理的collection
  • map:map函数
  • reduce:reduce函数
  • out:输出结果的collection的名字,不指定会默认创建一个随机名字的collection(如果使用了out选项,就不必指定keeptemp:true了,因为已经隐含在其中了)
  • query:一个筛选条件,只有满足条件的文档才会调用map函数。(query。limit,sort可以随意组合)
  • sort:和limit结合的sort排序参数(也是在发往map函数前给文档排序),可以优化分组机制
  • limit:发往map函数的文档数量的上限(要是没有limit,单独使用sort的用处不大)
  • keytemp:true或false,表明结果输出到的collection是否是临时的,如果想在连接关闭后仍然保留这个集合,就要指定keeptemp为true,如果你用的是MongoDB的mongo客户端连接,那必须exit后才会删除。如果是脚本执行,脚本退出或调用close会自动删除结果collection
  • finalize:是函数,它会在执行完map、reduce后再对key和value进行一次计算并返回一个最终结果,这是处理过程的最后一步,所以finalize就是一个计算平均数,剪裁数组,清除多余信息的恰当时机
  • scope:javascript代码中要用到的变量,在这里定义的变量在map,reduce,finalize函数中可见
  • verbose:用于调试的详细输出选项,如果想看MpaReduce的运行过程,可以设置其为true。也可以print把map,reduce,finalize过程中的信息输出到服务器日志上。

其中重点的几个参数说明:

1、Map

Map 函数必须调用 emit(key, value) 返回键值对,使用 this 访问当前待处理的 Document。

m = function() { emit(this.classid, 1) }

value 可以使用 JSON Object 传递 (支持多个属性值)。例如:

emit(this.classid, {count:1})

2 Reduce

Reduce 函数接收的参数类似 Group 效果,将 Map 返回的键值序列组合成 { key, [value1, value2, value3, value...] } 传递给 reduce。

r = function(key, values) {

var x = 0;

values.forEach(function(v) { x += v });

return x;

}

3 Result

res = db.runCommand({

mapreduce:"students",

map:m,

reduce:r,

out:"students_res"

});

mapReduce() 将结果存储在 "students_res" 表中。

8.4 Finalize

利用 finalize() 我们可以对 reduce() 的结果做进一步处理。

f = function(key, value) { return {classid:key, count:value}; }

列名变与 “classid”和”count”了,这样的列表更容易理解。

8.5 Options

可以添加更多的控制细节 。添加query、sort等。

实例:


publicvoid MapReduce() {
Mongo mongo =new Mongo("localhost",27017);
DB db = mongo.getDB("qimiguangdb");
DBCollection coll = db.getCollection("collection1");

String map ="function() { emit(this.name, {count:1});}";

String reduce ="function(key, values) {";
reduce=reduce+"var total = 0;";
reduce=reduce+"for(var i=0;i<values.length;i++){total += values[i].count;}";
reduce=reduce+"return {count:total};}";

String result ="resultCollection";

MapReduceOutput mapReduceOutput = coll.mapReduce(map,
reduce.toString(), result, null);
DBCollection resultColl = mapReduceOutput.getOutputCollection();
DBCursor cursor= resultColl.find();
while (cursor.hasNext()) {
System.out.println(cursor.next());
}
}

MongoDB 的 MapReduce 大数据统计统计挖掘的更多相关文章

  1. SQL大数据操作统计

    SQL大数据操作统计 1:select count(*) from table的区别SELECT object_name(id) as TableName,indid,rows,rowcnt FROM ...

  2. Spark 大数据文本统计

    此程序功能: 1.完成对10.4G.csv文件各个元素频率的统计 2.获得最大的统计个数 3.对获取到的统计个数进行降序排列 4.对各个元素出现次数频率的统计 import org.apache.sp ...

  3. 小试牛刀ElasticSearch大数据聚合统计

    ElasticSearch相信有不少朋友都了解,即使没有了解过它那相信对ELK也有所认识E即是ElasticSearch.ElasticSearch最开始更多用于检索,作为一搜索的集群产品简单易用绝对 ...

  4. mapReduce 大数据离线分析

    数据分析一般分为两种,一种是在线一种是离线 流程: 一般都是对于日志文件的采集和分析 场景实例(某个电商网站产生的用户访问日志(access.log)进行离线处理与分析的过程) 1.需求: 基于Map ...

  5. 大数据BI系统挖掘企业业务上的价值

    ​相信关注过我们的肯定知道BI是什么,但是老话常谈以防新朋友不知道BI的含义,BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合 ...

  6. 【机器学习实战】第15章 大数据与MapReduce

    第15章 大数据与MapReduce 大数据 概述 大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据 场景 假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则 ...

  7. 【大数据系列】MapReduce详解

    MapReduce是hadoop中的一个计算框架,用来处理大数据.所谓大数据处理,即以价值为导向,对大数据加工,挖掘和优化等各种处理. MapReduce擅长处理大数据,这是由MapReduce的设计 ...

  8. chinacloud大数据新闻

    2015年大数据发展八大趋势   (0 篇回复) “数据很丰满,信息很骨感”:Sight Machine想用大数据的方法,打碎两者间的屏障   (0 篇回复) 百度携大数据"圈地" ...

  9. bat坐拥大数据。数据挖掘/大数据给他们带来什么。

    阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了.   实际上,对于大数据究竟是什么业界并无共识.大数据并不是什么新鲜事物.信息革命带来的除了信息的更高效地生产.流通和消 ...

随机推荐

  1. 如何解决svn图标不显示呢?

    svn图标不显示解决 确保设置正确: 右键->TortoiseSVN->setting->Icon Overlays->Status cache->default/She ...

  2. Java基础知识强化56:经典排序之快速排序(QuickSort)

    1. 快速排序的原理: 快速排序(Quicksort)是对冒泡排序的一种改进. 快速排序由C. A. R. Hoare在1962年提出.它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其 ...

  3. Python字符串方法

    capitalize() 把字符串的第一个字符改为大写 casefold() 把整个字符串的所有字符改为小写 center(width) 将字符串居中,并使用空格填充至长度 width 的新字符串 c ...

  4. 服务 远程服务 AIDL 进程间通讯 IPC 深化

    示例 aidl接口文件 package com.bqt.aidlservice.aidl; parcelable Person;  package com.bqt.aidlservice.aidl; ...

  5. DropDownList获取的SelectIndex一直为0

    1.想要DropDownList自动提交必须设置AutoPostBack="true"属性,下面是代码: <asp:DropDownList ID=" AutoPo ...

  6. FineUI 点击按钮添加标签页

    <html xmlns="http://www.w3.org/1999/xhtml"> <head id="Head1" runat=&quo ...

  7. Sql Server 2008清理数据库日志的语句

    USE [master]GOALTER DATABASE DNName SET RECOVERY SIMPLE WITH NO_WAITGOALTER DATABASE DNName SET RECO ...

  8. 汇编语言中PTR的含义(转载)

    mov ax,bx ;是把BX寄存器“里”的值赋予AX,由于二者都是word型,所以没有必要加“WORD” mov ax,word ptr [bx];是把内存地址等于“BX寄存器的值”的地方所存放的数 ...

  9. 提升PHP速度的53个建议

      1.如果能将类的方法定义成static,就尽量定义成static,它的速度会提升将近4倍. 2.$row[’id’] 的速度是$row[id]的7倍. 3.echo 比 print 快,并且使用e ...

  10. css3画苹果logo

    <!doctype html> <html> <head> <meta charset="utf-8"> <title> ...