mapreduce入门之wordcount注释详解

mapreduce版本：0.2.0之前

说明：　　

　　该注释为之前学习时找到的一篇，现在只是在入门以后对该注释做了一些修正以及添加。

　　由于版本问题，该代码并没有在集群环境中运行，只将其做为理解mapreduce的参考吧。

　　切记，该版本是0.2.0之前的版本，请分辨清楚！

正文：

package org.apache.hadoop.examples;

import java.io.IOException;

import java.util.Iterator;

import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.MapReduceBase;

import org.apache.hadoop.mapred.Mapper;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reducer;

import org.apache.hadoop.mapred.Reporter;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;

public class WordCount

{

    //Map类继承自MapReduceBase，并且实现了Mapper接口,此接口是一个规范类型.

    //它有4种形式的参数，分别用来指定map的输入key、value值类型,输出key、value值类型

    public static class Map

    extends MapReduceBase

    implements Mapper<LongWritable, Text, Text, IntWritable>

    {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        //实现map方法，对输入值进行处理。（此处用来去掉空格）

        public void map(LongWritable key, Text value,

            OutputCollector<Text, IntWritable> output, Reporter reporter)

            throws IOException

            {

                String line = value.toString();

                StringTokenizer tokenizer = new StringTokenizer(line);

                while (tokenizer.hasMoreTokens())

                {

                    word.set(tokenizer.nextToken());

                    output.collect(word, one);

                }

            }

    }

    /*

    //Reduce类也是继承自MapReduceBase的，需要实现Reducer接口。

    //Reduce类以map的输出作为输入，因此Reduce的输入类型是<Text，Intwritable>。

    //而Reduce的输出是单词和它的数目，因此，它的输出类型是<Text,IntWritable>。

    //Reduce类也要实现reduce方法，在此方法中，reduce函数将输入的key值作为输出的key值，然后将获得多个value值加起来，作为输出的值。

    */

    public static class Reduce

        extends MapReduceBase

        implements Reducer<Text, IntWritable, Text, IntWritable>

    {

        public void reduce(Text key, Iterator<IntWritable> values,

        OutputCollector<Text, IntWritable> output, Reporter reporter)

        throws IOException

        {

            int sum = 0;

            while (values.hasNext())

            {

                sum += values.next().get();

            }

            output.collect(key, new IntWritable(sum));

        }

    }

    public static void main(String[] args) throws Exception

    {

        //1.用JobConf类对 MapReduce job进行初始化

        JobConf conf = new JobConf(WordCount.class);

        //    调用setJobName()方法命名这个Job

        conf.setJobName("wordcount");

        //setup2:设置Job输出结果<key,value>的中key和value数据类型,因为结果是<单词,个数>

        //所以key设置为"Text"类型，相当于Java中String类型。

        conf.setOutputKeyClass(Text.class);

        //Value设置为"IntWritable"，相当于Java中的int类型。

        conf.setOutputValueClass(IntWritable.class);

        //setup3:指定job的MapReduce，以及combiner

        //设置Job处理的Map（拆分）

        conf.setMapperClass(Map.class);

        //设置Job处理的Combiner（中间结果合并，这里用Reduce类来进行Map产生的中间结果合并，避免给网络数据传输产生压力。）

            也可以不用设置（已默认）

        conf.setCombinerClass(Reduce.class);

        //设置Job处理的Reduce（合并）

        conf.setReducerClass(Reduce.class);

        //指定输入输出路径，可在项目上右键->Run As->Run Configuration->arguments->program arguments中配置

            即为main(String[] args)中String[] args赋值

        //指定InputPaths

            eg:hdfs://master:9000/input1/

        FileInputFormat.setInputPaths(conf, new Path(args[0]));

        //指定outputPaths

            eg:hdfs://master:9000/input1/

        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);

    }

}

mapreduce入门之wordcount注释详解的更多相关文章

JScript中的条件注释详解（转载自网络）
JScript中的条件注释详解-转载这篇文章主要介绍了JScript中的条件注释详解,本文讲解了@cc_on.@if.@set.@_win32.@_win16.@_mac等条件注释语句及可用于条件编 ...
大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读评论(0) 收藏举报 ...
Spring 入门 web.xml配置详解
Spring 入门 web.xml配置详解 https://www.cnblogs.com/cczz_11/p/4363314.html https://blog.csdn.net/hellolove ...
爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
《挑战30天C++入门极限》入门教程：实例详解C++友元
入门教程:实例详解C++友元在说明什么是友元之前,我们先说明一下为什么需要友元与友元的缺点: 通常对于普通函数来说,要访问类的保护成员是不可能的,如果想这么做那么必须把类的成员都生命成为pu ...
MapReduce On Yarn的配置详解和日常维护
MapReduce On Yarn的配置详解和日常维护作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce运维概述 MapReduce on YARN的运维主要是 ...
Hadoop集群WordCount运行详解（转）
原文链接:Hadoop集群(第6期)_WordCount运行详解 1.MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对 ...
MapReduce 1工作原理图文详解
MapReduce工作原理图文详解一 MapReduce程序执行流程程序执行流程图如下: 流程分析:1.在客户端启动一个作业.2.向JobTracker请求一个Job ID.3.将运行作业所需要的 ...

随机推荐

关于Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2)的问题
找不到mysql socket的问题,我最近碰到了好多次重装系统以前,我的mysql,apache,php都是自己编译安装的,当时并没有碰到这些问题,重装系统以后,我的mysql是通过yum安装的,a ...
TextBoxButton控件的开发实现
效果图: 实现代码: public TextBoxButton() { _button = new Button { ForeColor = System.Drawing.SystemColors.G ...
NSDate的运算
NSDate存储的是世界标准时(UTC),输出时需要根据时区转换为本地时间 Dates NSDate类提供了创建date,比较date以及计算两个date之间间隔的功能.Date对象是不可改变的. 如 ...
IPTables系列:如何配置Ubuntu 14.04中的IPTables防火墙
IPTables基本命令在向大家介绍复杂防火墙规则之前,还是先上一些简单的料,让大家对IPTables最为基本的命令有一些简单了解. 首先要说明的是IPTables命令必需以root权限运行,这意味 ...
分布式一致性原理—CAP
背景随着分布式事务的出现,传统的单机事务模型(ACID)已经无法胜任,尤其是对于一个高访问量.高并发的互联网分布式系统来说. 如果我们要求严格一致性,很可能就需要牺牲掉系统的可用性,反之亦然.但两者 ...
Android 读写SD卡的文件
今天介绍一下Android 读写SD卡的文件,要读写SD卡上的文件,首先需要判断是否存在SD卡,方法: Environment.getExternalStorageState().equals(Env ...
使用siege进行Web压力测试
因为最近公司线上node项目出一些不稳定的情况,考虑在这方面能不能做进一步的优化,既然要做优化首先要知道问题出在哪里? 因为暂无法定位是node层问题还是api层出现问题,由于在开发环境小并发量程序运 ...
苹果 Mac OS X Yosemite 10.10 新功能特性总结 - 扁平化、主打跨设备的无缝连通性
苹果在2014.06.03凌晨的 WWDC 2014 大会上正式发布了最新的 OS X Yosemite 桌面操作系统和 iOS 8 移动系统.虽然整场发布会的重心都在软件上,并没有硬件亮相,但软件上 ...
jQuery 常用动画
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
最新java数组的详解
java中HashMap详解 http://alex09.iteye.com/blog/539545 总结: 1.就像引用类型的数组一样,当我们把 Java 对象放入数组之时,并不是真正的把 Java ...

mapreduce入门之wordcount注释详解

mapreduce入门之wordcount注释详解的更多相关文章

随机推荐

热门专题