hadoop2 作业执行过程之reduce过程

reduce阶段就是处理map的输出数据，大部分过程和map差不多

 //ReduceTask.run方法开始和MapTask类似，包括initialize()初始化，根据情况看是否调用runJobCleanupTask()，

   //runJobSetupTask()，runTaskCleanupTask()。之后进入正式的工作，主要有这么三个步骤：Copy、Sort、Reduce。

   @Override

   @SuppressWarnings("unchecked")

   public void run(JobConf job, final TaskUmbilicalProtocol umbilical)

     throws IOException, InterruptedException, ClassNotFoundException {

     this.umbilical = umbilical;

     job.setBoolean("mapred.skip.on", isSkipping());

     /*添加reduce过程需要经过的几个阶段。以便通知TaskTracker目前运   行的情况*/

     if (isMapOrReduce()) {

       copyPhase = getProgress().addPhase("copy");

       sortPhase  = getProgress().addPhase("sort");

       reducePhase = getProgress().addPhase("reduce");

     }

     // start thread that will handle communication with parent

  // 设置并启动reporter进程以便和TaskTracker进行交流

     TaskReporter reporter = new TaskReporter(getProgress(), umbilical,

         jvmContext);

     reporter.startCommunicationThread();

     //在job client中初始化job时，默认就是用新的API，详见Job.setUseNewAPI()方法

     boolean useNewApi = job.getUseNewReducer();

     /*用来初始化任务，主要是进行一些和任务输出相关的设置，比如创建commiter，设置工作目录等*/

     initialize(job, getJobID(), reporter, useNewApi);//这里将会处理输出目录

     /*以下4个if语句均是根据任务类型的不同进行相应的操作，这些方 法均是Task类的方法，所以与任务是MapTask还是ReduceTask无关*/

     // check if it is a cleanupJobTask

     if (jobCleanup) {

       runJobCleanupTask(umbilical, reporter);

       return;

     }

     if (jobSetup) {

         //主要是创建工作目录的FileSystem对象

       runJobSetupTask(umbilical, reporter);

       return;

     }

     if (taskCleanup) {

          //设置任务目前所处的阶段为结束阶段，并且删除工作目录

       runTaskCleanupTask(umbilical, reporter);

       return;

     }

     // Initialize the codec

     codec = initCodec();

     boolean isLocal = "local".equals(job.get("mapred.job.tracker", "local"));　　//判断是否是单机hadoop

     if (!isLocal) {

         //1. Copy.就是从执行各个Map任务的服务器那里，收到map的输出文件。拷贝的任务，是由ReduceTask.ReduceCopier 类来负责。

         //ReduceCopier对象负责将Map函数的输出拷贝至Reduce所在机器

       reduceCopier = new ReduceCopier(umbilical, job, reporter);

       if (!reduceCopier.fetchOutputs()) {////fetchOutputs函数负责拷贝各个Map函数的输出

         if(reduceCopier.mergeThrowable instanceof FSError) {

           throw (FSError)reduceCopier.mergeThrowable;

         }

         throw new IOException("Task: " + getTaskID() +

             " - The reduce copier failed", reduceCopier.mergeThrowable);

       }

     }

     copyPhase.complete();                         // copy is already complete

     setPhase(TaskStatus.Phase.SORT);

     statusUpdate(umbilical);

     final FileSystem rfs = FileSystem.getLocal(job).getRaw();

     //2.Sort(其实相当于合并).排序工作，就相当于上述排序工作的一个延续。它会在所有的文件都拷贝完毕后进行。

     //使用工具类Merger归并所有的文件。经过这一个流程，一个合并了所有所需Map任务输出文件的新文件产生了。

     //而那些从其他各个服务器网罗过来的 Map任务输出文件，全部删除了。

     //根据hadoop是否分布式来决定调用哪种排序方式

     RawKeyValueIterator rIter = isLocal

       ? Merger.merge(job, rfs, job.getMapOutputKeyClass(),

           job.getMapOutputValueClass(), codec, getMapFiles(rfs, true),

           !conf.getKeepFailedTaskFiles(), job.getInt("io.sort.factor", 100),

           new Path(getTaskID().toString()), job.getOutputKeyComparator(),

           reporter, spilledRecordsCounter, null)

       : reduceCopier.createKVIterator(job, rfs, reporter);

     // free up the data structures

     mapOutputFilesOnDisk.clear();

     sortPhase.complete();                         // sort is complete

     setPhase(TaskStatus.Phase.REDUCE);

     statusUpdate(umbilical);

     //3.Reduce 1.Reduce任务的最后一个阶段。它会准备好Map的 keyClass（"mapred.output.key.class"或"mapred.mapoutput.key.class"）,

     //valueClass("mapred.mapoutput.value.class"或"mapred.output.value.class")

     //和 Comparator （“mapred.output.value.groupfn.class”或 “mapred.output.key.comparator.class”）

     Class keyClass = job.getMapOutputKeyClass();

     Class valueClass = job.getMapOutputValueClass();

     RawComparator comparator = job.getOutputValueGroupingComparator();

     //2.根据参数useNewAPI判断执行runNewReduce还是runOldReduce。分析润runNewReduce

     if (useNewApi) {

         //3.runNewReducer

         //0.像报告进程书写一些信息

         //1.获得一个TaskAttemptContext对象。通过这个对象创建reduce、output及用于跟踪的统计output的RecordWrit、最后创建用于收集reduce结果的Context

         //2.reducer.run(reducerContext)开始执行reduce

       runNewReducer(job, umbilical, reporter, rIter, comparator,

                     keyClass, valueClass);

     } else {

       runOldReducer(job, umbilical, reporter, rIter, comparator,

                     keyClass, valueClass);

     }

     done(umbilical, reporter);

   }

1.reduce过程中三个大的阶段比较重要：Copy、Sort、Reduce；

2.codec = initCodec()这句是检查map的输出是否是压缩的，压缩的则返回压缩codec实例，否则返回null，这里讨论不压缩的；

3.实际中使用完全分布式的hadoop，即isLocal==false，然后构造一个ReduceCopier对象reduceCopier，并调用reduceCopier.fetchOutputs()方法拷贝各个Mapper的输出，到本地；

4.done(umbilical, reporter)这个方法用于做结束任务的一些清理工作：更新计数器updateCounters()；如果任务需要提交，设置Taks状态为COMMIT_PENDING，并利用TaskUmbilicalProtocol，汇报Task完成，等待提交，然后调用commit提交任务；设置任务结束标志位；结束Reporter通信线程；发送最后一次统计报告(通过sendLastUpdate方法)；利用TaskUmbilicalProtocol报告结束状态（通过sendDone方法)。

hadoop2 作业执行过程之reduce过程的更多相关文章

hadoop2 作业执行过程之map过程
在执行MAP任务之前,先了解一下它的容器和它容器的领导:container和nodemanager NodeManager NodeManager(NM)是YARN中每个节点上的代理,它管理Hadoo ...
hadoop2 作业执行过程之作业提交
hadoop2.2.0.centos6.5 hadoop任务的提交常用的两种,一种是测试常用的IDE远程提交,另一种就是生产上用的客户端命令行提交通用的任务程序提交步骤为: 1.将程序打成jar包: ...
hadoop2 作业执行过程之yarn调度执行
YARN是hadoop系统上的资源统一管理平台,其主要作用是实现集群资源的统一管理和调度(目前还不完善,只支持粗粒度的CPU和内存的的调配): 它的基本思想是将Mapreduce的jobtracker ...
TaskTracker执行map或reduce任务的过程2
TaskTracker执行map或reduce任务的过程(二) 上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的 ...
TaskTracker获取并执行map或reduce任务的过程1
TaskTracker获取并执行map或reduce任务的过程(一) 我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求. ...
【原创】大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程
Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task(MapRedTask,FetchTask)->QueryPlan(Task集合)- ...
SQL邮件服务（解决各种疑难杂症）+案例 + 使用SQLserver 邮件系统发送SQL代理作业执行警告
首先你需要知道你要做的几部: 1 每个数据库都有自己的 SERVICE BROKER 很多SQL SERVER内部服务依赖它 2 启动 SERVICE BROKER 需要 1 STOP 你的 SQL ...
Hadoop基础-HDFS数据清理过程之校验过程代码分析
Hadoop基础-HDFS数据清理过程之校验过程代码分析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需 ...
spark作业运行过程之--DAGScheduler
DAGScheduler--stage划分和创建以及stage的提交本篇,我会从一次spark作业的运行为切入点,将spark运行过程中涉及到的各个步骤,包括DAG图的划分,任务集的创建,资源分配, ...

随机推荐

WebBrowser的各种使用方法(未完待续)(XE8+WIN7)
相关资料: 占时想不起来了,有时间我补上吧. 程序下载: http://download.csdn.net/detail/zhujianqiangqq/9666390 实例代码: unit Unit1 ...
iOS开发中的Get请求和POST请求
//Get请求一般为不涉及到用户的账号密码的网络请求,其中Get请求是等请求内容回来之后,才可以进行下一步的操作 - (void)requestWithGet{ //Get请求: //1.设置请求路径 ...
poj 2239 Selecting Courses(二分匹配简单模板)
http://poj.org/problem?id=2239 这里要处理的是构图问题p (1 <= p <= 7), q (1 <= q <= 12)分别表示第i门课在一周的第 ...
linux which 查看可执行文件的位置
我们经常在linux要查找某个文件,但不知道放在哪里了,可以使用下面的一些命令来搜索: which 查看可执行文件的位置. whereis 查看文件的位置. ...
C++STL学习笔记_(3)stack
10.2.4stack容器 Stack简介 ² stack是堆栈容器,是一种"先进后出"的容器. ² stack是简单地装饰deque容器而成为另外的一种容器. ² #inc ...
特现C语言编程特点的小代码，itoa，数值转换成字符串
#define BASE_MAX (26 + 10) char const* itostr(int x, int base) { /* map 居中, 支技负余数 */ static char con ...
DELPHI下读取与设置系统时钟
在DELPHI下读取与设置系统时钟很多朋友都想在自己的程序中显示系统时间这在DELPHI中十分容易利用DateToStr(Date)及TimeToStr(Time)函数即可实现. 二者的函数原型 ...
C#完成超酷的图像效果 (附demo)
如果您觉得C#制作的艺术字比较好玩, 但是还觉得没看够,不过瘾,那么我今天就让您一饱眼福, 看看C#如何制作的效果超酷的图像. (注: 我之前曾写过类似的文章, 但没有原理说明, 代码注释不够详细, ...
标准C++中的STL容器类简单介绍
SGI -- Silicon Graphics[Computer System] Inc.硅图[计算机系统]公司. STL -- Standard Template Library 标准模板库. ...
jQuery进行DOM操作记录
1.在元素内部插入DOM元素 ①插入到元素内部原有元素之后 append(content) 返回值:jQuery 参数-content:要插入的元素String,Element,jQuer ...

hadoop2 作业执行过程之reduce过程

hadoop2 作业执行过程之reduce过程的更多相关文章

随机推荐

热门专题