云计算(6)--一些MapReduce的例子】的更多相关文章

例1:文件的字符串查找 这里reduce不做merge的工作,因为每行都是不一样的,不能merge. 与传统的grep程序相比,使用MapReduce可以加快处理,因为1它是Distributed的,不用把所有的文件都拷到一台机器上运行,你的data可以在不同的server上, 原因2,它能并行处理,加快处理的速度. 例2: Reverse Web-link graph Map:将<source,target>置反 Reduce: 输出每个target的source list.(不止一个) 例…
第一个MapReduce的例子 Hadoop Guide的第一个MapReduce的例子是处理气象数据的(数据来源ncdc),终于跑通了.总结一下步骤,安装hadoop不在本文中介绍 1 数据预处理 1.1 下载数据 测试数据需要在ncdc的官方ftp上进行下载,年份跨度范围1901到2016,不写个脚本下载,靠手工是行不通的,脚本如下: download.sh !bin/bash for i in {1901..2015} do wget --execute robots=off -r -np…
本例子统计 用空格分开的单词出现数量(  这个Main.mian 启动方式是hadoop 2.0 的写法.1.0 不一样 ) 目录结构: 使用的 maven : 下面是maven 依赖. <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.8.5</version> </…
var map = function(){ if (this.gscode == "ZTJB"){ ymd = this.ymd; emit("maxymd", ymd); } } var reduce = function(key, values){ var maxYmd = values[0]; for (var i=1; i<values.length; i++){ if (maxYmd < values[i]){ maxYmd = values[…
(转载请注明出处:http://blog.csdn.net/buptgshengod) 1.參会有感       首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会.感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢).         还是得从国家会议中心说起,两年前lz以前在那当过IDF的志愿者,当时是纯体力劳动,负责给參会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭躲到柜子后面直到开饭.真没想到两年后能够以来宾的身份參加国家会议中心的大会(尽管午餐还是苦逼的…
计算文档中不同单词的个数. hello you hello me 步骤如下:…
http://blog.csdn.net/pipisorry/article/details/48443533 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Leskovec courses学习笔记之MapReduce {A programming system for easily implementing parallel algorithms on commodity clusters.} Distributed File Systems分布式文件系统…
http://hi.baidu.com/hzd2712/item/d2465ae65270ab3e4cdcaf55 MapReduce几个典型的例子 在Google的<MapReduce: Simpli ed Data Processing on Large Clusters>论文中,作者向世界阐述了什么是MapReduce.其中的几个关于MapReduce的例子很简单,但是很有代表性.拿来分享一下. 分布式Grep:map函数检查输入行,如果匹配给定的模板(类似于正则表达式的匹配),就把该行…
前言 刚才发生了悲伤的一幕,本来这篇博客马上就要写好的,花了我一晚上的时间.但是刚才电脑没有插电源就没有了.很难受!想哭,但是没有办法继续站起来. 前面的一篇博文中介绍了什么是MapReduce,这一篇给大家详细的分享一下MapReduce的运行原理. 一.写一个MapReduce程序例子 1.1.数据准备 准备要处理的数据(假定数据已经存放在hdfs的/data目录下) $> hdfs dfs -ls /data 看到测试数据目录.天气数据目录/data/weather,专利数据目录/data…
从分治算法说起 要说 Hadoop MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 .其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再分.直到最后的子问题可以简单得求解. 要具体介绍分治算法,那就不得不说一个很经典的排序算法 -- 归并排序.这里不说它的具体算法代码,只说明它的主要思想.而归并排序的思想正是分治思想. 归并排序采用递归的方式,每次都将一个数组分解成更小的两个数组,再对这两个数组进行排序,不断递归下去.直到分解成最简…