[Hadoop源码解读]（四）MapReduce篇之Counter相关类

当我们定义一个Counter时，我们首先要定义一枚举类型：

 public static enum MY_COUNTER{
   CORRUPTED_DATA_COUNTER,
   NORMAL_DATA_COUNTER
 };

然后，我们就可以在mapper或reducer里面增加它的值：

context.getCounter(MY_COUNTER.CORRUPTED_DATA_COUNTER).increment(1);

我们在第（一）篇讲InputFormat时，我们有看到Mapper.class中的Context类是继承于MapContext类的，而MapContext又继承于TaskInputOutputContext，我们可以从TaskInputOutputContext的getCounter()方法看见，这个方法实际上是调用了StatusReporter的getCounter()方法，StatusReporter在后面谈到。

接着，我们在提交job，waitForCompletion()方法等待job执行完后，就可以通过

 Counters counters = job.getCounters();
 Counter counter = counters.findCounter(MYCOUNTER.CORRUPTED_DATA_COUNTER);
 System.out.println(counter.getValue());

这样就将我们想要输出的计数器输出来。如果在执行前企图输出，则会报：java.lang.IllegalStateException: Job in state DEFINE instead of RUNNING。

Counter对应我们写的enum类型中的一个枚举常量，比如MY_COUNTER.CORRUTED_DATA_COUNTER，它由name，displayName和value表示，value是Counter当前计数值。Counter、CounterGroup和Counters都实现了Writable接口，由于Counter是全局的，所以它们的读写方法都是synchronized方法，以保证线程安全。

CounterGroup对应我们写的enum类型，比如MY_COUNTER。CounterGroup有name，displayName，TreeMap类型的counters，以及一个ResourceBoundle bundle。counters存放的是enum里面的所有枚举常量对应的Counter。而bundle是用来本地化Counter的名字的。举个例子：src\mapred\org\apache\hadoop\mapred下有一个JobInProgress_Counter.properties文件，内容是这样的：

 # ResourceBundle properties file for job-level counters

 CounterGroupName=                  Job Counters 

 NUM_FAILED_MAPS.name=              Failed map tasks
 NUM_FAILED_REDUCES.name=           Failed reduce tasks
 TOTAL_LAUNCHED_MAPS.name=          Launched map tasks
 TOTAL_LAUNCHED_REDUCES.name=       Launched reduce tasks
 OTHER_LOCAL_MAPS.name=             Other local map tasks
 DATA_LOCAL_MAPS.name=              Data-local map tasks
 RACK_LOCAL_MAPS.name=              Rack-local map tasks
 FALLOW_SLOTS_MILLIS_MAPS.name=     Total time spent by all maps waiting after reserving slots (ms)
 FALLOW_SLOTS_MILLIS_REDUCES.name=  Total time spent by all reduces waiting after reserving slots (ms)

它存放的是job级别的counters的本地化名字。形式是name = displayName。

这样，我们就可以每次利用name从改文件中读取displayName，使得当我们改变这个properties文件中的某个displayName的时候，不需要改动程序。

Counters是一个Job的Counter最后的汇聚地，在分析Job类得时候，我们看到Job.getCounters()方法是用RunningJob得到的，而RunningJob是获取作业情况的一组接口。因为Counters会最终被JobTracker收集，要不断从TaskTracker收集并更新，因此它包含一个缓冲最近读的Counter的cache来进行优化，它还有一个存储Job的所有Counter的TreeMap。当我们使用findCounter((Enum<?> key)方法查找Counter时，它会先在cache中查找，如果没有找到，则会从TreeMap中查找并放入cache中。Counters还实现了Iterable接口，以支持对Counters的遍历。另外还提供了increase所有Counter的方法incrAllCounters()。

from : http://blog.csdn.net/posa88/article/details/7904720

[Hadoop源码解读]（四）MapReduce篇之Counter相关类的更多相关文章

[Hadoop源码解读]（六）MapReduce篇之MapTask类
MapTask类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务. run()首先设置一个TaskReporter并启动,然后调用JobConf的getUseNewAPI()判断 ...
Hadoop源码解读系列目录
Hadoop源码解读系列 1.hadoop源码|common模块-configuration详解2.hadoop源码|core模块-序列化与压缩详解3.hadoop源码|core模块-远程调用与NIO ...
Hadoop2源码分析－MapReduce篇
1.概述前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapred ...
Bert系列源码解读四篇章
Bert系列(一)——demo运行 Bert系列(二)——模型主体源码解读 Bert系列(三)——源码解读之Pre-trainBert系列(四)——源码解读之Fine-tune 转载自: https: ...
[Hadoop源码解读]（一）MapReduce篇之InputFormat
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按 ...
[Hadoop源码解读]（五）MapReduce篇之Writable相关类
前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的. 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节 ...
[Hadoop源码解读]（三）MapReduce篇之Job类
下面,我们只涉及MapReduce 1,而不涉及YARN. 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做.建立一个Job对象,设置它的JobName,然后配置输入 ...
spring beans源码解读之--总结篇
spring beans下面有如下源文件包: org.springframework.beans, 包含了操作java bean的接口和类.org.springframework.beans.anno ...
Python Web Flask源码解读(四)——全局变量
关于我一个有思想的程序猿,终身学习实践者,目前在一个创业团队任team lead,技术栈涉及Android.Python.Java和Go,这个也是我们团队的主要技术栈. Github:https:/ ...

随机推荐

C#常量字段
const 常量字段使用方法 using System;using System.Collections.Generic;using System.Linq;using System.Text;usi ...
关于char 指针变量char *=p;这个语句的输出问题
学习指针的时候我一直有个疑惑,请看下面的代码: #include <iostream> using std::cout; void main() { ; int *nPtr=&nu ...
eclipse下的tomcat内存设置大小
在eclipse中设置,居然可以了, 设置步骤如下: 1.点击eclipse上的debug图标旁边的下拉箭头 2.然后选择Run Configurations, 3.系统弹出设置tomcat配置页面, ...
NOIP200905
暴力,简单,,, 题目好长,差点没读完试题描述 R国和S国正陷入战火之中,双方都互派间谍,潜入对方内部,伺机行动.历经艰险后,潜伏于S国的R国间谍小C终于摸清了S国军用密码的编码规则:1)S国军方内 ...
简单模拟Hibernate的主要功能实现
在学习期间接触到Hibernate框架,这是一款非常优秀的O/R映射框架,大大简化了在开发web项目过程中对数据库的操作.这里就简单模拟其底层的实现. /*******代码部分,及其主要注解***** ...
iOS 成员变量的作用范围
/* 成员变量的作用范围: @public:在任何地方都能直接访问对象的成员变量 @private:只能在当前类的对象方法中直接访问,如果子类要访问需要调用父类的get/set方法 @protecte ...
Linux Vi的使用
1.vi使用三模式:一般模式,插入模式,命令模式保存和退出vi: 命令模式下 :w 保存 :w 新文件保存到新文件类似另存为,新文件存在,报错 :w! 新文件保存到新文件,新文件存在,覆盖 : ...
DZ升级到X3.2后,UCenter用户管理中心进不了了
前天将DZ升级到X3.2后,UCenter用户管理中心进不了了,输入的密码也对,验证码也对,就是点登录后没反应,又回来输入前的状态.如果更换密码后,显示密码错误,证明密码是没错的.但就是进不了.大家看 ...
懒加载 lazy load
懒加载(Load On Demand)是一种独特而又强大的数据获取方法,它能够在用户滚动页面的时候自动获取更多的数据, 而新得到的数据不会影响原有数据的显示,同时最大程度上减少服务器端的资源耗用. 比 ...
基于Hadoop生态圈的数据仓库实践 —— ETL
使用Hive转换.装载数据 1. Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读.写.管理分布式存储上的大数据集.它建立在Hadoop之上,具有以下功能和 ...

[Hadoop源码解读]（四）MapReduce篇之Counter相关类

[Hadoop源码解读]（四）MapReduce篇之Counter相关类的更多相关文章

随机推荐

热门专题