Java编程MapReduce实现WordCount

1.编写Mapper

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

import java.util.StringTokenizer;

/**

 * @author : 宋同煜

 * @version : 1.0

 * @createTime : 2017/4/12 14:15

 * @description :

 */

public class WordCountMapper extends Mapper<Object,Text,Text,IntWritable>{

    //对于每个单词赋予出现频数1，因为单词是一个一个取出来的，所以每个数量都为1

    private final static IntWritable one = new IntWritable(1);

    //存储取出来的一行单词

    private Text word = new Text();

    @Override

    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {

        //StringTokenizer 对输入单词进行切分

        StringTokenizer itr = new StringTokenizer(value.toString());

        while(itr.hasMoreTokens())

        {

            word.set(itr.nextToken());

            context.write(word, one);

        }

    }

}

123456789101112131415161718192021222324252627282930313233

2.编写Reducer

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**

 * @author : 宋同煜

 * @version : 1.0

 * @createTime : 2017/4/12 14:16

 * @description :

 */

public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable>{

    //存取对应单词总频数

    private IntWritable result = new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        //计算频数

        int sum = 0;

        for(IntWritable value:values){

            sum+=value.get();

        }

        result.set(sum);

        //写入输出

        context.write(key, result);

    }

}

12345678910111213141516171819202122232425262728293031

3.编写Job提交器

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

 * wordcount 提交器 打包在hadoop集群任意机器执行 hadoop jar  XXX.jar  net.toocruel.yarn.mapreduce.wordcount WordCount

 * @author : 宋同煜

 * @version : 1.0

 * @createTime : 2017/4/12 14:15

 * @description :

 */

public class WordCount {

    public static void main(String[] args)throws Exception {

        //初始化配置

        Configuration conf = new Configuration();

        System.setProperty("HADOOP_USER_NAME","hdfs");

        //创建一个job提交器对象

        Job job = Job.getInstance(conf);

        job.setJobName("WordCount");

        job.setJarByClass(WordCount.class);

        //设置map，reduce处理

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReducer.class);

        //设置输出格式处理类

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //设置输入输出路径

        FileSystem.get(new Configuration()).delete(new Path("/sty/wordcount/output")); //先清空输出目录

        FileInputFormat.addInputPath(job, new Path("hdfs://cloudera:8020/sty/wordcount/input"));

        FileOutputFormat.setOutputPath(job, new Path("hdfs://cloudera:8020/sty/wordcount/output"));

        boolean res =  job.waitForCompletion(true);

        System.out.println("任务名称: "+job.getJobName());

        System.out.println("任务成功: "+(res?"Yes":"No"));

        System.exit(res?0:1);

    }

}

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748

4.打包

我用的maven打包，也可以Eclipse的直接导出jar包或Idea的build artifacts

hadoopSimple-1.0.jar

5.运行

在Yarn的ResourceManager 或NodeManager节点机器上运行

hadoop jar hadoopSimple-1.0.jar  net.toocruel.yarn.mapreduce.wordcount.WordCount

6.运行结果

[root@cloudera ~]# hadoop jar hadoopSimple-1.0.jar  net.toocruel.yarn.mapreduce.wordcount.WordCount

17/04/13 12:57:13 INFO client.RMProxy: Connecting to ResourceManager at cloudera/192.168.254.203:8032

17/04/13 12:57:14 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.

17/04/13 12:57:18 INFO input.FileInputFormat: Total input paths to process : 1

17/04/13 12:57:18 INFO mapreduce.JobSubmitter: number of splits:1

17/04/13 12:57:18 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1491999347093_0012

17/04/13 12:57:19 INFO impl.YarnClientImpl: Submitted application application_1491999347093_0012

17/04/13 12:57:19 INFO mapreduce.Job: The url to track the job: http://cloudera:8088/proxy/application_1491999347093_0012/

17/04/13 12:57:19 INFO mapreduce.Job: Running job: job_1491999347093_0012

17/04/13 12:57:32 INFO mapreduce.Job: Job job_1491999347093_0012 running in uber mode : false

17/04/13 12:57:32 INFO mapreduce.Job:  map 0% reduce 0%

17/04/13 12:57:39 INFO mapreduce.Job:  map 100% reduce 0%

17/04/13 12:57:47 INFO mapreduce.Job:  map 100% reduce 33%

17/04/13 12:57:49 INFO mapreduce.Job:  map 100% reduce 67%

17/04/13 12:57:53 INFO mapreduce.Job:  map 100% reduce 100%

17/04/13 12:57:54 INFO mapreduce.Job: Job job_1491999347093_0012 completed successfully

17/04/13 12:57:54 INFO mapreduce.Job: Counters: 49

File System Counters

FILE: Number of bytes read=162

FILE: Number of bytes written=497579

FILE: Number of read operations=0

FILE: Number of large read operations=0

FILE: Number of write operations=0

HDFS: Number of bytes read=233

HDFS: Number of bytes written=62

HDFS: Number of read operations=12

HDFS: Number of large read operations=0

HDFS: Number of write operations=6

Job Counters

Launched map tasks=1

Launched reduce tasks=3

Data-local map tasks=1

Total time spent by all maps in occupied slots (ms)=5167

Total time spent by all reduces in occupied slots (ms)=18520

Total time spent by all map tasks (ms)=5167

Total time spent by all reduce tasks (ms)=18520

Total vcore-seconds taken by all map tasks=5167

Total vcore-seconds taken by all reduce tasks=18520

Total megabyte-seconds taken by all map tasks=5291008

Total megabyte-seconds taken by all reduce tasks=18964480

Map-Reduce Framework

Map input records=19

Map output records=18

Map output bytes=193

Map output materialized bytes=150

Input split bytes=111

Combine input records=0

Combine output records=0

Reduce input groups=7

Reduce shuffle bytes=150

Reduce input records=18

Reduce output records=7

Spilled Records=36

Shuffled Maps =3

Failed Shuffles=0

Merged Map outputs=3

GC time elapsed (ms)=320

CPU time spent (ms)=4280

Physical memory (bytes) snapshot=805298176

Virtual memory (bytes) snapshot=11053834240

Total committed heap usage (bytes)=529731584

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=122

File Output Format Counters

Bytes Written=62

任务名称: WordCount

任务成功: Yes

Java编程MapReduce实现WordCount的更多相关文章

Hadoop学习笔记： MapReduce Java编程简介
概述本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...
Java编程手冊-Collection框架（下）
建议先看Java编程手冊-Collection框架(上) 5. Set<E>接口与实现 Set<E>接口表示一个数学的集合,它不同意元素的反复,仅仅能包括一个null元素. ...
eclipse运行mapreduce的wordcount
1,eclipse安装hadoop插件插件下载地址:链接: https://pan.baidu.com/s/1U4_6kLFNiKeLsGfO7ahXew 提取码: as9e 下载hadoop-ec ...
JAVA编程思想（第四版）学习笔记----4.8 switch(知识点已更新)
switch语句和if-else语句不同,switch语句可以有多个可能的执行路径.在第四版java编程思想介绍switch语句的语法格式时写到: switch (integral-selector) ...
《Java编程思想》学习笔记（二）——类加载及执行顺序
<Java编程思想>学习笔记(二)--类加载及执行顺序 (这是很久之前写的,保存在印象笔记上,今天写在博客上.) 今天看Java编程思想,看到这样一道代码 //: OrderOfIniti ...
#Java编程思想笔记（一）——static
Java编程思想笔记(一)--static 看<Java编程思想>已经有一段时间了,一直以来都把笔记做在印象笔记上,今天开始写博客来记录. 第一篇笔记来写static关键字. static ...
[Java编程思想-学习笔记]第3章操作符
3.1 更简单的打印语句学习编程语言的通许遇到的第一个程序无非打印"Hello, world"了,然而在Java中要写成 System.out.println("He ...
Java编程思想重点笔记（Java开发必看）
Java编程思想重点笔记(Java开发必看) Java编程思想,Java学习必读经典,不管是初学者还是大牛都值得一读,这里总结书中的重点知识,这些知识不仅经常出现在各大知名公司的笔试面试过程中,而 ...
JAVA编程讲座-吴老
JAVA系列公开课第4讲:多态系列课程:从JAVA编程零基础讲起,同时结合工作中遇到的具体实例,语言清晰易懂,连续10周+深入讲解,打下编程基础,让我们一起打来自动化测试的大门时间:4月25日(周一) ...

随机推荐

Vue 编程之路（三）—— Vue 中子组件在父组件的 v-for 循环里，父组件如何调取子组件的事件
(标题的解决方案在第二部分) 最近公司的一个项目中使用 Vue 2.0 + element UI 实现一个后台管理系统的前端部分,属于商城类型. 一.前期思路: 其中在“所有订单”页面,UI 给的设计 ...
【转】Bootstrap FileInput中文API整理
Bootstrap FileInput中文API整理这段时间做项目用到bootstrap fileinput插件上传文件,在用的过程中,网上能查到的api都不是很全,所以想着整理一份比较详细的文档, ...
OpenMPI源码剖析1：MPI_Init初探
OpenMPI的底层实现: 我们知道,OpenMPI应用起来还是比较简单的,但是如果让我自己来实现一个MPI的并行计算,你会怎么设计呢?————这就涉及到比较底层的东西了. 回想起我们最简单的代码,通 ...
django request bug
bug描述:django请求request接收数据时,如果参数中包含分号时,会导致分号后面的消息丢失. 比如前台js调用代码 $.post('/get_params', { "A" ...
LeetCode 138——复制带随机指针的链表
1. 题目 2. 解答第一次遍历链表的时候,复制旧链表的节点值建立一个新的链表,同时定义一个 unordered_map 作为哈希表,哈希表的键为旧链表的节点指针,值为新链表的节点指针. 然后,第二 ...
【Machine Learning】如何处理机器学习中的非均衡数据集？
在机器学习中,我们常常会遇到不均衡的数据集.比如癌症数据集中,癌症样本的数量可能远少于非癌症样本的数量:在银行的信用数据集中,按期还款的客户数量可能远大于违约客户的样本数量. 比如非常有名的德国信 ...
对int类型最小值INT_MIN取负值结果不变
在32位系统中,int类型的最大值是0x7fffffff(即除了最高的1Bit其他31位都为1),而最小值是0x80000000(除了最高1bit,其他31位都为0). 显然,对于最小值求负数是不存在 ...
JAVA集合类(大公司面试喜欢问的)
分类: 核心JAVA(11) 版权声明:本文为博主原创文章,未经博主允许不得转载. 看了一些所谓大公司的Java面试问题,发现对于JAVA集合类的使用都比较看重似的,而自己在这方面还真的是所真甚少 ...
《剑指Offer》题五十一~题六十
五十一.数组中的逆序对题目:在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对.输入一个数组,求出这个数组中的逆序对的总数.例如,在数组{7, 5, 6, 4}中,一共存 ...
ssl证书验证的问题
对于https请求,是需要ssl证书验证的请求的,所以如果在请求时如果不带ssl证书,那么可以忽略证书的验证有三种方法去实现: 1.Requests请求: 在文档中可以看到:http://docs. ...

Java编程MapReduce实现WordCount

Java编程MapReduce实现WordCount的更多相关文章

随机推荐

热门专题