简介 当我们要统计数亿文本的词频,单个机器性能一般,况且是数亿级数据,处理是十分缓慢的,对于这样的任务,希望的是多台电脑共同处理,大幅度减少任务时间.联合多台电脑一起工作的系统就是分布式系统. 最近在学MIT6.824分布式系统课程,第一个Lab就是MapReduce,MapReduce是Google公司2004年发表的一篇论文,介绍很多任务都可以分为两步操作--Map和Reduce(比如要统计词频,Map分别对每个文件生成单词和单一数目,分不同区块保存,Reduce对不同区块进行统计,得到最终…