前言 本文讲解Hadoop中的编程及计算模型MapReduce,并将给出在MapReduce模型下编程的基本套路. 模型架构 在Hadoop中,用于执行计算任务(MapReduce任务)的机器有两个角色:一个是JobTracker,一个是TaskTracker,前者用于管理和调度工作,后者用于执行工作. 一般来说,一个Hadoop集群由一个JobTracker和N个TaskTracker构成. 执行流程 每次计算任务都可以分为两个阶段,Map阶段和Reduce阶段. 其中,Map阶段接收一组键值…