本文为senlie原创,转载请保留此地址:http://www.cnblogs.com/senlie/ 1.概要很多计算在概念上很直观,但由于输入数据很大,为了能在合理的时间内完成,这些计算必须分布在数以百计数以千计的机器上.例如处理爬取得到的文档.网页请求日志来计算各种衍生数据,如倒排索引,网页文档的各种图结构表示,从每个主机上爬取的文档数,在某一天最频繁的查询的集合. MapReduce 是为处理和生成大数据集的编程模式和相应的实现.用户指定一个 map 函数来处理一个键值对来生成一个键值对…