一.概述 在本篇博文中,试图通过代码了解hadoop job执行的整个流程.即用户提交的mapreduce的jar文件.输入提交到hadoop的集群,并在集群中运行.重点在代码的角度描述整个流程,有些细节描述的并不那么详细. 汇总的代码流程图附件: hadoop_mapreduce_jobsubmit 二.主要流程 Jobclient通过RPC方式调用到jobtracker的submitJob方法提交作业,包括作业的jar.分片和作业描述. JobTracker的submitJob方法吧job加…
一.概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述. 根据官方的流程图示如下: 本篇文章中只是想尝试从代码分析来说明在map端是如何将map的输出保存下来等待reduce来取. 在执行每个map task时,无论map方法中执行什么逻辑,最终都是要把输出写到磁盘上.如果没有reduce阶段,则直接输出到hdfs上,如果有有reduce作业,则每个map方法的输出在写磁盘前线在内存中缓存.每个map…
整理09年时候做的Hadoop的代码笔记. 开始. [Hadoop代码笔记]Hadoop作业提交之客户端作业提交 [Hadoop代码笔记]通过JobClient对Jobtracker的调用看详细了解Hadoop RPC 待续..…
1.      概要描述仅仅描述向Hadoop提交作业的第一步,即调用Jobclient的submitJob方法,向Hadoop提交作业. 2.      详细描述Jobclient使用内置的JobSubmissionProtocol 实例jobSubmitClient 和JobTracker交互,最主要是提交作业.获取作业执行信息等. 在JobClient中作业提交的主要过程如下: 1)通过调用JobTracker的getNewJobId()向jobtracker请求一个新的作业ID2)获取j…
在整理FairScheduler实现的task调度逻辑时,注意到EagerTaskInitializationListener类.差不多应该是job提交相关的逻辑代码中最简单清楚的一个了. todo:标红文字表示要加前向链接,待相关文字草稿提交后. 一.概述 继承自JobInProgressListener,实现了jobAdded,jobRemoved,jobUpdated方法.哦,不能说实现,应该说继承,JobInProgressListener居然是个抽象类,看着怎么这样的listener也…
一.概要描述 本文重点描述在JobTracker一端接收作业.调度作业等几个模块的初始化工作.想过模块的介绍会在其他文章中比较详细的描述.受理作业提交在下一篇文章中会进行描述. 为了表达的尽可能清晰一点只是摘录出影响逻辑流转的主要代码.重点强调直接的协作调用,每个内部完成的逻辑(一直可以更细的说明.有些细节可能自己也理解并不深刻:-()在后续会描述. 主要包括JobTracker.TaskScheduler(此处以FairScheduler为例).JobInProgressListener(以用…
Hadoop的各个服务间,客户端和服务间的交互采用RPC方式.关于这种机制介绍的资源很多,也不难理解,这里不做背景介绍.只是尝试从Jobclient向JobTracker提交作业这个最简单的客户端服务器交互的代码中,去跟踪和了解下RPC是怎么被使用的.不同于准备发表博客时搜索的几篇博文,试图通过一种具体的场景来介绍,属于比较初级.其他DataNode和Namenode之间,Tasktracker和JobTracker之间的交互基本也都一样.为了引用的代码篇幅尽可能少,忽略了代码中写日志(包括Me…
Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件. 1.查看指定文件夹下的内容 语法: hadoop fs -ls 文件文件夹 2.打开某个已存在的文件 语法: hadoop fs -cat 文件地址 [ | more] []表示的是可选命令 3.将本地文件存到Hadoop 语法: hadoop fs -put 本地文件地址 Hadoop文件夹 4.将Hadoop上的文件下载到本地文件夹内 语法: hadoop fs -get Hadoop文件夹 本地文件文件…
一.概要描述 在上一篇博文中主要描述了JobTracker接收作业的几个服务(或功能)模块的初始化过程.本节将介绍这些服务(或功能)是如何接收到提交的job.本来作业的初始化也可以在本节内描述,但是涉及到JobInProgress的初始化过程放在一张图上太拥挤,就分开到下一篇文章中描述. 二. 流程描述   1. JobClient通过RPC的方式向JobTracker提交作业: 2. 调用JobTracker的submitJob方法.该方法是JobTracker向外提供的供调用的提交作业的接口…
一.概要描述 在上上一篇博文和上一篇博文中分别描述了jobTracker和其服务(功能)模块初始化完成后,接收JobClient提交的作业,并进行初始化.本文着重描述,JobTracker如何选择作业的Task分发到TaskTracker.本文只是描述一个TaskTracker如何从JobTracker获取Task任务.Task任务在TaskTracker如何执行将在后面博文中描述. 二. 流程描述   1. TaskTracker在run中调用offerService()方法一直死循环的去连接…