TaskTracker获取并执行map或reduce任务的过程（一）

我们知道TaskTracker在默认情况下，每个3秒就行JobTracker发送一个心跳包，也就是在这个心跳包中包含对任务的请求。JobTracker返回给TaskTracker的心跳包中包含有各种action（任务），如果有满足在此TaskTracker上执行的任务的话，该任务也就包含在心跳包的响应中。在TaskTracker端有线程专门等待map或reduce任务，并从队列中取出执行。

1. TaskTracker发送心跳包

　　TaskTracker是作为一个单独的JVM运行的，它启动以后一直处于offerService（）函数中，每隔3秒就执行一次transmitHeartBeat函数，如下所示：

HeartbeatResponse heartbeatResponse = transmitHeartBeat(now);

　　该函数具体代码为：

  HeartbeatResponse transmitHeartBeat(long now) throws IOException {
　　......
    if (status == null) {

      synchronized (this) {

        status = new TaskTrackerStatus(taskTrackerName, localHostname,

                                       httpPort,

                                       cloneAndResetRunningTaskStatuses(

                                         sendCounters),

                                       failures,

                                       maxMapSlots,

                                       maxReduceSlots);

      }

    } //

    // 检查是否可以接受新的任务

    //

    boolean askForNewTask;

    long localMinSpaceStart;

    synchronized (this) {

      askForNewTask =

        ((status.countOccupiedMapSlots() < maxMapSlots ||

          status.countOccupiedReduceSlots() < maxReduceSlots) &&

         acceptNewTasks);

      localMinSpaceStart = minSpaceStart;

    }
......

    HeartbeatResponse heartbeatResponse = jobClient.heartbeat(status,

                                                              justStarted,

                                                              justInited,

                                                              askForNewTask,

                                                              heartbeatResponseId);

......

    return heartbeatResponse;

  }

　　我们从中可以看出，TaskTracker首先创建一个TaskTrackerStatus对象，其中包含有TaskTracker的各种信息，比如，map slot的数目，reducer slot槽的数目，TaskTracker所在的主机名等信息。然后，对TaskTracker的空闲的slot以及磁盘空间进行检查，如果满足相应的条件时，最终就会通过JobClient(为JobTracker的代理)将心跳信息发送给JobTracker，并得到JobTracker的响应HeartbeatResponse。如下所示，JobClient是InterTrackerProtocol的一个实例，而JobTracker实现了InterTrackerProtocol这个接口。

    this.jobClient = (InterTrackerProtocol)

    UserGroupInformation.getLoginUser().doAs(

        new PrivilegedExceptionAction<Object>() {

      public Object run() throws IOException {

        return RPC.waitForProxy(InterTrackerProtocol.class,

            InterTrackerProtocol.versionID,

            jobTrackAddr, fConf);

      }

    });

　　　　那么，TaskTracker怎样通过JobTracker的代理与JobTracker进行通信呢?它是通过RPC调用JobTracker的heartbeat(......)方法而实现的。

2. TaskTracker端获取任务

　　TaskTracker接收到任务后，会将它们放入到相应的LinkedList中，LinkedList实现了List和Queue接口，它是基于链表实现的FIFO的队列。

heartbeatInterval = heartbeatResponse.getHeartbeatInterval();if (actions != null){

          for(TaskTrackerAction action: actions) {

            if (action instanceof LaunchTaskAction) {

              addToTaskQueue((LaunchTaskAction)action);

         ......

          }

        }
　　......

　　private void addToTaskQueue(LaunchTaskAction action) {
　　　　if (action.getTask().isMapTask()) {
　　　　　　mapLauncher.addToTaskQueue(action);
　　　　} else {
　　　　　　reduceLauncher.addToTaskQueue(action);
　　　　}
　　　　}

　　TaskTracker启动的时候，创建了两个线程：mapLauncher和reduceLauncher，它们分别处理map任务和reduce任务，map任务有mapLauncher负责将其放入到LinkedList中，reduce任务有reducerLauncher负责将其放入到它维护的LinkedList中。

  public void addToTaskQueue(LaunchTaskAction action) {

      synchronized (tasksToLaunch) {

        TaskInProgress tip = registerTask(action, this);

        tasksToLaunch.add(tip);

        tasksToLaunch.notifyAll();

      }

    }

　　mapLauncher或者是reducerLauncher根据接收到的action，创建对应的TaskTracker.TaskInProgress对象，并放入到队列中，唤醒等待的线程进行处理。如下所示，该线程负责从taskToLaunch中获取task，当有空间的slot时，执行这个task。

  synchronized (tasksToLaunch) {

            while (tasksToLaunch.isEmpty()) {

              tasksToLaunch.wait();

            }

            //get the TIP

            tip = tasksToLaunch.remove(0);

            task = tip.getTask();

            LOG.info("Trying to launch : " + tip.getTask().getTaskID() +

                     " which needs " + task.getNumSlotsRequired() + " slots");

          }

.....

          //得到空闲的slot后，启动这个task

          startNewTask(tip);

　　这样，TaskTracker就得到了待处理的任务，具体如何执行请参考下一篇博客。

标签: Hadoop

TaskTracker获取并执行map或reduce任务的过程1的更多相关文章

TaskTracker获取并执行map或reduce任务的过程（一）
我们知道TaskTracker在默认情况下,每个3秒就行JobTracker发送一个心跳包,也就是在这个心跳包中包含对任务的请求.JobTracker返回给TaskTracker的心跳包中包含有各种a ...
TaskTracker执行map或reduce任务的过程2
TaskTracker执行map或reduce任务的过程(二) 上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的 ...
TaskTracker执行map或reduce任务的过程（二）
上次说到,当MapLauncher或ReduceLancher(用于执行任务的线程,它们扩展自TaskLauncher),从它们所维护的LinkedList也即队列中获取到TaskInProgress ...
匿名函数 python内置方法（max/min/filter/map/sorted/reduce）面向过程编程
目录函数进阶三 1. 匿名函数 1. 什么是匿名函数 2. 匿名函数的语法 3. 能和匿名函数联用的一些方法 2. python解释器内置方法 3. 异常处理面向过程编程函数进阶三 1. 匿名函 ...
（转） hadoop 一个Job多个MAP与REDUCE的执行
http://blog.csdn.net/chaoping315/article/details/6221440 在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进 ...
MapReduce剖析笔记之七：Child子进程处理Map和Reduce任务的主要流程
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ...
MapReduce剖析笔记之五：Map与Reduce任务分配过程
在上一节分析了TaskTracker和JobTracker之间通过周期的心跳消息获取任务分配结果的过程.中间留了一个问题,就是任务到底是怎么分配的.任务的分配自然是由JobTracker做出来的,具体 ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...
Hadoop :map+shuffle+reduce和YARN笔记分享
今天做了一个hadoop分享,总结下来,包括mapreduce,及shuffle深度讲解,还有YARN框架的详细说明等. v\:* {behavior:url(#default#VML);} o\:* ...

随机推荐

Matlab学习第二天利用插值
插入值一切手段: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxNDQ5MjI1Nw==/font/5a6L5L2T/fontsize/400/fi ...
java中文件的相对路径以及jar中文件的读取
Java中File类的构造函数需要我们传入一个pathname,当我们传入以"/"开头的pathname表示绝对路径,其他均表示相对路径. 一:绝对路径名:是完整的路径名,不需要任 ...
脱O把妹，记录这一周来迁移至MySQL的一些心得
· 背景公司要把一些老设备退服,一些陪伴我多年的DB要下线了,舍不得.正好借此机会,手贱把自己3个"回收站"DB迁移到MySQL上,也算是赶一把时髦.等真正看着这些老设备下线了的 ...
UIAppDelegate介绍
#import "GLAppDelegate.h" @implementation GLAppDelegate // 当应用程序启动完毕的时候就会调用(系统自动调用) - (BOO ...
javascript如何解析json对javascript如何解析json对象并动态赋值到select列表象并动态赋值到select列表
原文 javascript如何解析json对象并动态赋值到select列表 JSON(JavaScriptObject Notation)一种简单的数据格式,比xml更轻巧.JSON是JavaScri ...
事半功倍之StyleCop(一)
事半功倍之StyleCop(一) 前言曾几何时,你是否在看别人代码的时候总是在抱怨代码没有注释,命名不规范,代码风格不统一,代码可读性差?是否有一个适合团队开发规范的检查工具? 答案就是大名鼎鼎的S ...
MySQL之GROUP BY用法误解
1.说明 “Group By”从字面意义上理解就是根据“By”指定的规则对数据进行分组,所谓的分组就是将一个“数据集”划分成若干个“小区域”,然后针对若干个“小区域”进行数据处理.(只是简单说明这个 ...
solr与.net主从复制
solr主从复制 solr与.net系列课程(七)solr主从复制既然solr是解决大量数据全文索引的方案,由于高并发的问题,我们就要考虑solr的负载均衡了,solr提供非常简单的主从复制的 ...
ubuntu忘记密码，无法sudo的解决方法
想要安装一个sublime Text Editor,发现需要root权限,而且sudo用户的密码输进去没有作用!@ubuntu 14.04 LTS 这个时候怎么办呢? 打开终端,在终端中使用 sudo ...
添加MySql Metat Database 信息
有时候我们想看看一个数据库上面某种元素(比如表名)的所有信息,在Mysql上我们可以通过引入information_schema 的方式,就可以非常方便的查看到. 添加步骤 Edit->P ...

TaskTracker获取并执行map或reduce任务的过程1

TaskTracker获取并执行map或reduce任务的过程（一）

1. TaskTracker发送心跳包

2. TaskTracker端获取任务

TaskTracker获取并执行map或reduce任务的过程1的更多相关文章

随机推荐

热门专题