Hadoop - WordCount代码示例

文章来源：http://www.itnose.net/detail/6197823.html

import java.io.IOException;

import java.util.Iterator;

import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;

/**

 *

 * 描述：WordCount explains by Felix

 * @author Hadoop Dev Group

 */

public class WordCount

{

    /**

    * MapReduceBase类:实现了Mapper和Reducer接口的基类（其中的方法只是实现接口，而未作任何事情）

    * Mapper接口：

    * WritableComparable接口：实现WritableComparable的类可以相互比较。所有被用作key的类应该实现此接口。

    * Reporter 则可用于报告整个应用的运行进度，本例中未使用。

    *

    */

    public static class Map extends MapReduceBase implements

            Mapper<LongWritable, Text, Text, IntWritable>

    {

        /**

        * LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类，这些类实现了WritableComparable接口，

        * 都能够被串行化从而便于在分布式环境中进行数据交换，你可以将它们分别视为long,int,String 的替代品。

        */

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        /**

        * Mapper接口中的map方法：

        * void map(K1 key, V1 value, OutputCollector<K2,V2> output, Reporter reporter)

        * 映射一个单个的输入k/v对到一个中间的k/v对

        * 输出对不需要和输入对是相同的类型，输入对可以映射到0个或多个输出对。

        * OutputCollector接口：收集Mapper和Reducer输出的<k,v>对。

        * OutputCollector接口的collect(k, v)方法:增加一个(k,v)对到output

        */

        public void map(LongWritable key, Text value,

                OutputCollector<Text, IntWritable> output, Reporter reporter)

                throws IOException

        {

            String line = value.toString();

            StringTokenizer tokenizer = new StringTokenizer(line);

            while (tokenizer.hasMoreTokens())

            {

                word.set(tokenizer.nextToken());

                output.collect(word, one);

            }

        }

    }

    public static class Reduce extends MapReduceBase implements

            Reducer<Text, IntWritable, Text, IntWritable>

    {

        public void reduce(Text key, Iterator<IntWritable> values,

                OutputCollector<Text, IntWritable> output, Reporter reporter)

                throws IOException

        {

            int sum = 0;

            while (values.hasNext())

            {

                sum += values.next().get();

            }

            output.collect(key, new IntWritable(sum));

        }

    }

    public static void main(String[] args) throws Exception

    {

        /**

        * JobConf：map/reduce的job配置类，向hadoop框架描述map-reduce执行的工作

        * 构造方法：JobConf()、JobConf(Class exampleClass)、JobConf(Configuration conf)等

        */

        JobConf conf = new JobConf(WordCount.class);

        conf.setJobName("wordcount");          //设置一个用户定义的job名称

        conf.setOutputKeyClass(Text.class);    //为job的输出数据设置Key类

        conf.setOutputValueClass(IntWritable.class);  //为job输出设置value类

        conf.setMapperClass(Map.class);        //为job设置Mapper类

        conf.setCombinerClass(Reduce.class);      //为job设置Combiner类

        conf.setReducerClass(Reduce.class);        //为job设置Reduce类

        conf.setInputFormat(TextInputFormat.class);    //为map-reduce任务设置InputFormat实现类

        conf.setOutputFormat(TextOutputFormat.class);  //为map-reduce任务设置OutputFormat实现类

        /**

        * InputFormat描述map-reduce中对job的输入定义

        * setInputPaths():为map-reduce job设置路径数组作为输入列表

        * setInputPath()：为map-reduce job设置路径数组作为输出列表

        */

        FileInputFormat.setInputPaths(conf, new Path(args[0]));

        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);        //运行一个job

    }

}

Hadoop - WordCount代码示例的更多相关文章

Hadoop RCFile存储格式详解（源码分析、代码示例）
RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件. 关键词:Reco ...
MapReduce框架结构及代码示例
一个完整的 mapreduce 程序在分布式运行时有三类实例进程: 1.MRAppMaster:负责整个程序的过程调度及状态协调 2.MapTask:负责 map 阶段的整个数据处理流程 3.Redu ...
Hadoop.2.x_WebUV示例
一.网站基本指标(即针对于网站用户行为而产生的日志中进行统计分析) 1. PV:网页浏览量(Page View页面浏览次数,只要进入该网页就产生一条记录,不限IP,统计点每天(较多)/每周/每月/.. ...
MapReduce序列化及分区的java代码示例
概述序列化(Serialization)是指把结构化对象转化为字节流. 反序列化(Deserialization)是序列化的逆过程.把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, ...
高级渲染技巧和代码示例 GPU Pro 7
下载代码示例移动设备正呈现着像素越来越高,屏幕尺寸越来越小的发展趋势. 由于像素着色的能耗非常大,因此 DPI 的增加以及移动设备固有的功耗受限环境为降低像素着色成本带来了巨大的压力. MSAA 有 ...
Java8-Function使用及Groovy闭包的代码示例
导航定位概述代码示例 Java-Function Groovy闭包定位本文适用于想要了解Java8 Function接口编程及闭包表达式的筒鞋. 概述在实际开发中,常常遇到使用模板模式的场 ...
[IOS 开发] 懒加载 (延迟加载) 的基本方式，好处，代码示例
懒加载的好处: 1> 不必将创建对象的代码全部写在viewDidLoad方法中,代码的可读性更强 2> 每个属性的getter方法中分别负责各自的实例化处理,代码彼此之间的独立性强,松耦合 ...
SELECT控件操作的JS代码示例
SELECT控件操作的JS代码示例 1 检测是否有选中 if(objSelect.selectedIndex > -1) { //说明选中 } else { //说明没有选中 } 2.动态创建s ...
转：HIBERNATE一些_方法_@注解_代码示例---写的非常好
HIBERNATE一些_方法_@注解_代码示例操作数据库7步骤 : 1 创建一个SessionFactory对象 2 创建Session对象 3 开启事务Transaction : hibernate ...

随机推荐

面向对象程序设计--Java语言第二周编程题：有秒计时的数字时钟
有秒计时的数字时钟题目内容: 这一周的编程题是需要你在课程所给的时钟程序的基础上修改而成.但是我们并不直接给你时钟程序的代码,请根据视频自己输入时钟程序的Display和Clock类的代码,然后来做 ...
spring 中属性scope 的prototype(有状态)和singleton(无状态)
默认情况下,从bean工厂所取得的实例为Singleton(bean的singleton属性) Singleton: Spring容器只存在一个共享的bean实例, 默认的配置. Prototype: ...
08css、JS
08.css.JS-2018/07/18 1.css的属性文字属性:font-size:大小,font-family字体类型,font-color:颜色文本颜色:color:颜色,test-dec ...
TestNG参数化测试
参数化有两种方法: 第一种:在xml文件中声明第二种:用@DataProvider注解先介绍第一种方法: ParameterTest类:用@Parameters({"name" ...
docker-ce安装官翻
参考http://www.cnblogs.com/maple42/p/5868846.htmlhttp://blog.csdn.net/lizehua123/article/details/50601 ...
52.基于doc value正排索引的聚合内部原理
主要知识点: 本节没有太懂,以后复习时补上聚合分析的内部原理是什么????aggs,term,metric avg max,执行一个聚合操作的时候,内部原理是怎样的呢?用了什么样的数据结 ...
分布式数据库中CAP原理（CAP+BASE）
分布式数据库中CAP原理(CAP+BASE) 传统的ACID 1)原子性(Atomicity): 事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功. 2)一致性(Con ...
jQuery下拉列表操作(转)
转地址:http://www.cnblogs.com/yaoshiyou/archive/2010/08/24/1806939.html jQuery获取Select选择的Text和Value:语法解 ...
记一次 Hibernate 插入数据中文乱码报错解决
错误描述程序运行,向表中插入数据(包含中文)报错:\xE6\xB2\x88\xE9\x9B\xAA... 但是自己另外新建一个数据库手动插入数据中文正常,同样修改数据库,表的编码之后同样不行.而且 ...
sql-server-internals-architecture
http://kevinekline.com/slides/sql-server-internals-architecture/

Hadoop - WordCount代码示例

Hadoop - WordCount代码示例的更多相关文章

随机推荐

热门专题