用户定义的java计数器

mapreduce 计数器用来做某个信息的统计。

计数器是全局的。mapreduce 框架将跨所有map和reduce聚集这些计数器，并且作业结束时产生一个最终的结果。

语法像 java 的 enum 类型。

需求：统计某个目录下，各个文件一共出现的行数，和出现单词的总数。

思路：定义一个计数器。

package com.mapreduce.count;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class CountDerived {

    // 定义一个全局的计数器，每个map,reduce都可以访问到

    enum COUNT{

        LINES_COUNT,

        WORDS_COUNT

    }

    public static void main(String[] args) throws Exception {

        // 1 获取configuration

        Configuration configuration = new Configuration();

        // 2 job

        Job job = Job.getInstance(configuration);

        // 3 作业jar包

        job.setJarByClass(CountDerived.class);

        // 4 map, reduce jar 包

        job.setMapperClass(CounterMap.class);

        // 5 map 输出类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        // 6 最终 输出类型  （reducer）

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 7 inputformatclass , outputformatclass  输入输出入文件类型  可能决定分片信息  

        job.setInputFormatClass(TextInputFormat.class);

        job.setOutputFormatClass(TextOutputFormat.class);

        // 8  输入输出文件路径 

        FileInputFormat.setInputPaths(job, new Path("d:/input"));

        FileOutputFormat.setOutputPath(job, new Path("d:/output1"));

        // 9 job提交 

        job.waitForCompletion(true);

    }

}

package com.mapreduce.count;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.Counters.Counter;

import org.apache.hadoop.mapreduce.Mapper;

/*

 *  job 那边定义 全局计数器  count { lineCount, wordsCount }

 */

import com.mapreduce.count.CountDerived.COUNT;

public class CounterMap extends Mapper<LongWritable, Text, Text, IntWritable>{

    Text k = new Text();

    IntWritable v = new IntWritable();

    protected void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

        // 动态获取计数器

        Counter line_counter =  (Counter) context.getCounter(COUNT.LINES_COUNT);

        //将计数器 + 1

        line_counter.increment();

        String line = value.toString();

        String[] words = line.split(" ");

        v.set();

        for(String w:words){

            // 同理

            context.getCounter(COUNT.WORDS_COUNT).increment();

            k.set(w);

            context.write(k, v);

        }

    }

}

用户定义的java计数器的更多相关文章

Hadoop Hive概念学习系列之hive里的用户定义函数UDF（十七）
Hive可以通过实现用户定义函数(User-Defined Functions,UDF)进行扩展(事实上,大多数Hive功能都是通过扩展UDF实现的).想要开发UDF程序,需要继承org.apache ...
【翻译】Flink Table Api & SQL — 用户定义函数
本文翻译自官网:User-defined Functions https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/tabl ...
SQL SERVER中用户定义标量函数（scalar user defined function）的性能问题
用户定义函数(UDF)分类 SQL SERVER中的用户定义函数(User Defined Functions 简称UDF)分为标量函数(Scalar-Valued Function)和表值函数(T ...
应用C#和SQLCLR编写SQL Server用户定义函数
摘要: 文档阐述使用C#和SQLCLR为SQL Server编写用户定义函数,并演示用户定义函数在T-SQL中的应用.文档中实现的 Base64 编码解码函数和正则表达式函数属于标量值函数,字符串分割 ...
SQL——用户定义函数
根据用户定义函数返回值的类型,可将用户定义函数分为如下三个类别: (1) 返回值为可更新表的函数若用户定义函数包含单个 SELECT 语句且该语句可更新,则该函数返回的表也可更新,这样的函数称为内嵌 ...
paip.提升用户体验--提升java的热部署热更新能力
paip.提升用户体验--提升java的热部署热更新能力想让java做到php那么好的热部署能力 "fix online"/在线修复吗??直接在服务器上修改源码生效,无需重启应 ...
JMeter学习-014-JMeter 配置元件实例之 - 用户定义的变量参数化配置
前文讲述了通过 CSV Data Set Config 实现参数化配置(详情敬请参阅:JMeter学习-010-JMeter 配置元件实例之 - CSV Data Set Config 参数化配置), ...
Sql server 浅谈用户定义表类型
1.1 简介 SQL Server 中,用户定义表类型是指用户所定义的表示表结构定义的类型.您可以使用用户定义表类型为存储过程或函数声明表值参数,或者声明您要在批处理中或在存储过程或函数的主体中使用的 ...
关于spring mybateis 定义resultType="java.util.HashMap"
关于spring mybateis 定义resultType="java.util.HashMap" List<HashMap<String, Object>& ...

随机推荐

MYSQL 中query_cache_size小结
1 原理 MySQL查询缓存保存查询返回的完整结果.当查询命中该缓存,会立刻返回结果,跳过了解析,优化和执行阶段. 查询缓存会跟踪查询中涉及的每个表,如果这写表发生变化,那么和这个表相关的所有缓 ...
微信支付（APP支付）-服务端开发（一）
微信支付,首先需要注册一个商户平台公众账号,(网址:https://pay.weixin.qq.com/index.php/home/d_login) 目前微信支付的接入方式有四种方式:公众号支付,A ...
Django Web开发学习笔记(1)
一.Python的标准类型 (1)bool型 >>> bool("") False >>> bool(None) False >>& ...
点击LinearLayout使用selector改变TextView字体颜色
[html] view plaincopy <LinearLayout android:clickable="true" android:focusable=" ...
C++赋值兼容原则
C++赋值兼容原则(派生类对象是基类对象,反之不成立) –基类指针强制转换成派生类指针 –派生类中重定义基类成员(同名覆盖) 假设, 一个基类 "普通人", 一个派生类 " ...
C# 版本的24点实现
C# 版本的24点实现. 已经实现基本功能,可以正确的算 3, 3, 8, 8 这类组合. 稍加修改就可以支持任意数目的操作数和操作符组合形成的四则运算表达式,不限于24点. 代码还比较简单粗糙,晚一 ...
[教程]-三种空格unicode(\u00A0,\u0020,\u3000)表示的区别
1.不间断空格\u00A0,主要用在office中,让一个单词在结尾处不会换行显示,快捷键ctrl+shift+space ; 2.半角空格(英文符号)\u0020,代码中常用的; 3.全角空格(中文 ...
【GMT43智能液晶模块】例程九：RTC实验——时钟显示
实验原理: STM32的实时时钟(RTC)是一个独立的定时器,有一组连续计数的计数器,通过软件来对其进行相关的配置,可以提供时钟功能,通过修改计数器的的值,可以调整时钟.最终通过emWin在显示屏 ...
【emWin】例程十五：触摸校准实例——五点校准法
介绍: 该例程介绍如何校准4.3寸.7寸液晶显示屏.校准方法如下: 1.进入以下界面,用户可选择是否进入校准界面进行液晶校准 *点击屏幕任何地方可进入校准界面 *不采取任何操作,几秒钟后会进入触摸测试 ...
Vue.js常用指令：v-show和v-if
一.v-show指令 v-show指令可以用来动态的控制DOM元素的显示或隐藏.v-show后面跟的是判断条件,语法如下: v-show="判断变量" 例如: v-show=&qu ...

用户定义的java计数器

用户定义的java计数器的更多相关文章

随机推荐

热门专题