Hadoop2.6.0版本号MapReudce演示样例之WordCount（一）

一、准备測试数据

1、在本地Linux系统/var/lib/hadoop-hdfs/file/路径下准备两个文件file1.txt和file2.txt，文件列表及各自内容例如以下图所看到的：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

2、在hdfs中。准备/input路径，并上传两个文件file1.txt和file2.txt。例如以下图所看到的：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

二、编写代码，封装Jar包并上传至linux

将代码封装成TestMapReduce.jar。并上传至linux的/usr/local路径下。例如以下图所看到的：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

三、执行命令

运行命令例如以下：hadoop jar /usr/local/TestMapReduce.jar com.jngreen.mapreduce.test.WordCount /input/file1.txt /input/file2.txt /output/output

命令运行过程截图例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

四、查看执行结果

查看hdfs输出路径/output下的结果，例如以下图所看到的：

执行结果为Hello 4、Hadoop 1、Man 1、Boy 1、Word 1，全然正确！

五、WordCount展示

源代码例如以下：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  // TokenizerMapper作为Map阶段，须要继承Mapper，并重写map()函数

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);

    private Text word = new Text();

    public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      // 用StringTokenizer作为分词器，对value进行分词

      StringTokenizer itr = new StringTokenizer(value.toString());

      // 遍历分词后结果

      while (itr.hasMoreTokens()) {

    	// 将String设置入Text类型word

        word.set(itr.nextToken());

        // 将(word,1)。即(Text,IntWritable)写入上下文context，供兴许Reduce阶段使用

        context.write(word, one);

      }

    }

  }

  // IntSumReducer作为Reduce阶段，须要继承Reducer，并重写reduce()函数

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = 0;

      // 遍历map阶段输出结果中的values中每一个val，累加至sum

      for (IntWritable val : values) {

        sum += val.get();

      }

      // 将sum设置入IntWritable类型result

      result.set(sum);

      // 通过上下文context的write()方法，输出结果(key, result)，即(Text,IntWritable)

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

    // 载入hadoop配置

	Configuration conf = new Configuration();

	// 校验命令行输入參数

	if (args.length < 2) {

      System.err.println("Usage: wordcount <in> [<in>...] <out>");

      System.exit(2);

    }

	// 构造一个Job实例job，并命名为"word count"

    Job job = new Job(conf, "word count");

    // 设置jar

    job.setJarByClass(WordCount.class);

    // 设置Mapper

    job.setMapperClass(TokenizerMapper.class);

    // 设置Combiner

    job.setCombinerClass(IntSumReducer.class);

    // 设置Reducer

    job.setReducerClass(IntSumReducer.class);

    // 设置OutputKey

    job.setOutputKeyClass(Text.class);

    // 设置OutputValue

    job.setOutputValueClass(IntWritable.class);

    // 加入输入路径

    for (int i = 0; i < args.length - 1; ++i) {

      FileInputFormat.addInputPath(job, new Path(args[i]));

    }

    // 加入输出路径

    FileOutputFormat.setOutputPath(job,

      new Path(args[args.length - 1]));

    // 等待作业job执行完毕并退出

    System.exit(job.waitForCompletion(true) ?

0 : 1);

  }

}

Hadoop2.6.0版本号MapReudce演示样例之WordCount（一）的更多相关文章

Java连接redis的使用演示样例
Java连接redis的使用演示样例 Redis是开源的key-value存储工具,redis通经常使用来存储结构化的数据,由于redis的key能够包括String.hash.listset和sor ...
Thrift的安装和简单演示样例
本文仅仅是简单的解说Thrift开源框架的安装和简单使用演示样例.对于具体的解说,后面在进行阐述. Thrift简述 ...
最简单的视音频播放演示样例4：Direct3D播放RGB（通过Texture）
===================================================== 最简单的视音频播放演示样例系列文章列表: 最简单的视音频播放演示样例1:总述最简单的视音频 ...
让你提前认识软件开发(19)：C语言中的协议及单元測试演示样例
第1部分又一次认识C语言 C语言中的协议及单元測试演示样例 [文章摘要] 在实际的软件开发项目中.常常要实现多个模块之间的通信.这就须要大家约定好相互之间的通信协议,各自依照协议来收发和解析消息. ...
Android平台调用Web Service：演示样例
近期在学习Android,随着移动设备的流行,当软件走上商业化的道路,为了争夺市场,肯定须要支持Android的,所以開始接触了Android,只是仅仅了解皮毛就好,由于我们要做管理者嘛,懂点Andr ...
[hadoop系列]Pig的安装和简单演示样例
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ).(来源:http://blog.csdn.net/inkfish) Pig是Yaho ...
最简单的视音频播放演示样例5：OpenGL播放RGB/YUV
===================================================== 最简单的视音频播放演示样例系列文章列表: 最简单的视音频播放演示样例1:总述最简单的视音频 ...
最简单的视音频播放演示样例8：DirectSound播放PCM
===================================================== 最简单的视音频播放演示样例系列文章列表: 最简单的视音频播放演示样例1:总述最简单的视音频 ...
ArcSDE SDK For Java二次开发介绍、演示样例
在一个工作中,遇到了须要java后台来查询ArcGIS 中用到的Oracle数据库空间数据,因为对ArcGIS空间数据首次接触,仅仅知道Oracle能够使用ST_GEOMETRY字段存储,例如以下图 ...

随机推荐

Lighthouse前端性能优化测试工具
在前端开发中,对于自己开发的app或者web page性能的好坏,一直是让前端开发很在意的话题.我们需要专业的网站测试工具,让我们知道自己的网页还有哪些需要更为优化的方面,我自己尝试了一款工具:Lig ...
Mysql Lock wait timeout exceeded; try restarting transaction的问题
今天在后台跑任务的时候,发现了数据库报错1205 - Lock wait timeout exceeded; try restarting transaction.问题原因是因为表的事务锁,以下是解决 ...
[python]接口签名
一个主机中的数据要通过外网发送数据给另外一个主机,为了保证接口安全,需要对接口进行签名,由于重放攻击貌似对这种接口无效,所以没有加入时间戳直接放代码: #!/usr/bin/env python # ...
一个关于react-native的demo，详细请转GitHub
react native 0 介绍支持ios和android两个平台下载:git clone https://github.com/chunlei36/react-native-full-exam ...
greenDao 介绍
greenDAO是一个针对Android的轻快速ORM解决方案,它将对象映射到SQLite数据库.http://greenrobot.org/greendao/ greenDAO is a light ...
Django插件之Django-hosts的应用
Django插件之Django-hosts的应用前因网站移动端的域名是m.example.com,最开始只是在nginx做了映射,将m.example.com映射到example.com/m/下面 ...
接口开发-集成数据库操作（mybatis）
关于数据存储,最常用的方式就是存到数据库,此篇以MySQL数据库为例,以mybatis框架完成数据库的操作. 一.添加对应依赖  <depende ...
CentOS 7设置KVM硬盘模式为SCSI
找到一下节点,把target节点的dev改成s开头,bus改成scsi即可,并删除address节点: 以此内推,如果要修改为ide需要修改dev为h开头,bus改成ide. 参考: https:// ...
AN2820 Driving bipolar stepper motors using a medium-density STM32F103xx microcontroller
AN2820 Driving bipolar stepper motors using a medium-density STM32F103xx microcontroller Introductio ...
mysql exists 如何使用
还没时间看,exists用的少 ==>当你只需要判断后面的查询结果是否存在时使用exists() http://edu.codepub.com/2011/0208/29218.php 今天正 ...

Hadoop2.6.0版本号MapReudce演示样例之WordCount（一）

Hadoop2.6.0版本号MapReudce演示样例之WordCount（一）的更多相关文章

随机推荐

热门专题