一.MapReduce模型 1.MapReduce是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言. 2.Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算. 3.常见的应用包括:日志分析和数据挖掘等数据分析应用.另外,还可以用于科学数据计算,如圆周率PI的计算等. 4.当我们提交一个计算作业时,MapReduce会首先把计算作业拆分成若干个Map任务,然后分配到不同的节点上去执行,…