一、MapReduce主要继承两个父类：

Map

 protected void map(KEY key,VALUE value,Context context) throws IOException,InterruptedException{

 }

Reduce

 1 protected void reduce(KEY key,Iterable<VALUE> values,Context context) throws IOException,InterruptedException{

 2 }

二、使用代码实现WordCount：

 package com.laowang.mapreduce;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import java.io.IOException;

 import java.util.StringTokenizer;

 public class MR {

     /**

      * @author laowang

      * @version v1.0.0

      * @apiNote Mapper

      * @since 2018/4/27 10:44

      * <p>

      * KEYIN, VALUEIN, KEYOUT, VALUEOUT  输入key类型，输入value类型，输出KEY类型，输出value类型

      */

     static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

         private final static IntWritable ONE = new IntWritable(1);

         private Text word = new Text();

         @Override

         protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

             //获取每一行的数据

             String lineStr = value.toString();

             //以 空格、/t、/n、/r、/f 分割

             StringTokenizer stringTokenizer = new StringTokenizer(lineStr);

             //遍历

             while (stringTokenizer.hasMoreTokens()) {

                 //获取截取后的每一个字符串

                 String wordValue = stringTokenizer.nextToken();

                 //拼接到word里面去

                 word.set(wordValue);

                 //写入到输出中

                 context.write(word, ONE);

             }

         }

     }

     /**

      * @author laowang

      * @version v1.0.0

      * @apiNote Reducer

      * @since 2018/4/27 10:44

      * <p>

      * KEYIN, VALUEIN, KEYOUT, VALUEOUT  输入key类型，输入value类型，输出KEY类型，输出value类型

      */

     static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

         private IntWritable result = new IntWritable();

         @Override

         protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

             int sum = 0;

             for (IntWritable value : values) {

                 sum += value.get();

             }

             result.set(sum);

             context.write(key, result);

         }

     }

     /**

      * @author laowang

      * @version v1.0.0

      * @apiNote Client

      * @since 2018/4/27 10:47

      */

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

         //获取配置信息

         Configuration configuration = new Configuration();

         //创建job

         Job job = new Job(configuration,"wc");

         //设置JOB运行的类

         job.setJarByClass(MR.class);

         //设置Mapper和Reducer

         job.setMapperClass(MyMapper.class);

         job.setReducerClass(MyReducer.class);

         //设置输入和输出路径

         FileInputFormat.addInputPath(job,new Path(args[0]));

         FileOutputFormat.setOutputPath(job,new Path(args[1]));

         //设置输出key和value的类型

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         //提交job

         boolean b = job.waitForCompletion(true);

         //结束程序

         System.exit(b ? 0 : 1);

     }

 }

hadoop学习笔记（九）：MapReduce程序的编写的更多相关文章

hadoop 学习笔记：mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop学习笔记：MapReduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
hadoop 学习笔记：mapreduce框架详解(转)
原文:http://www.cnblogs.com/sharpxiajun/p/3151395.html(有删减) Mapreduce运行机制下面我贴出几张图,这些图都是我在百度图片里找到的比较好的 ...
Hadoop学习笔记： MapReduce Java编程简介
概述本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...
Hadoop学习笔记：使用Mrjob框架编写MapReduce
1.mrjob介绍一个通过mapreduce编程接口(streamming)扩展出来的Python编程框架. 2.安装方法 pip install mrjob,略.初学,叙述的可能不是很细致,可以加 ...
Hadoop学习笔记—12.MapReduce中的常见算法
一.MapReduce中有哪些常见算法 (1)经典之王:单词计数这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思 ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
[原创] hadoop学习笔记：wordcout程序实践
看了官网上的示例:但是给的不是很清楚,这里依托官网给出的示例,加上自己的实践,解析worcount程序的操作 1.首先你的确定你的集群正确安装,并且启动你的集群,应为这个是hadoop2.6.0,所以 ...
Hadoop学习笔记： MapReduce二次排序
本文给出一个实现MapReduce二次排序的例子 package SortTest; import java.io.DataInput; import java.io.DataOutput; impo ...

随机推荐

国内云计算的缺失环节: GPU并行计算（转）
[IT时代周刊编者按]云计算特有的优点和巨大的商业前景,让其成为了近年来的IT界最热门词汇之一.当然,这也与中国移动互联网的繁荣紧密相关,它们需要有相应的云计算服务作为支撑.但本文作者祁海江结合自身的 ...
[C#]C#时间日期操作
一.C# 日期格式 1. DateTime dt = DateTime.Now; 2. dt.ToString();//2005-11-5 13:21:25 3. dt.ToFileTime().To ...
Ruby on Rails 目录结构
目录结构 + app/ #控制器.模型.视图.帮助方法.邮件.静态资源 + bin/ #rails脚本 + config/ #路由.数据库等 + db/ #数据库模式.迁移文件 + lib/ #扩展模 ...
net_framework-EF CodeFirst
CodeFirst——手动创建POCO类(Plain Old CLR Object,即平时认识的ado.net实体类),类之间的关系使用代码定义.当应用程序首次执行时,EF将在数据库服务器中自动生成数 ...
log Log4NET配置
Log4Net是用来记录日志的,可以将程序运行过程中的信息输出到一些地方(文件.数据库.EventLog等),日志就是程序的黑匣子,可以通过日志查看系统的运行过程,从而发现系统的问题.日志的作用:将 ...
PageAdmin CMS网站建设教程：如何创建及管理栏目？
PageAdmin CMS网站制作教程:如何创建及管理栏目?1.登录管理后台后,在顶部导航中找到网站,并点击: 2.在左侧栏目中找到栏目管理,并点击: 3.进入到栏目管理页面,在顶部找到菜单,点击添加 ...
【slenium专题】Webdriver同步设置
Webdriver同步设置常用等待类主要如下图所示注:support.ui包内类主要实现显性等待功能,timeouts()内方法主要实现隐性等待功能一.线程休眠 Thread.sleep(long ...
配置阿里yum源,设置命令
配置阿里yum源 #linux的软件包管理安装软件的方式有三种 .源代码编译安装() .下载python3的源代码 .解压缩源代码 .进入源代码目录,开始编译安装 .配置环境变量 .yum方式安装 ...
Django + DRF + Elasticsearch 实现搜索功能
django使用haystack来调用Elasticsearch搜索引擎如何使用django来调用Elasticsearch实现全文的搜索 Haystack为Django提供了模块化的搜索.它的特 ...
平衡二叉树(AVL)的理解和实现(Java)
AVL的定义平衡二叉树:是一种特殊的二叉排序树,其中每一个节点的左子树和右子树的高度差至多等于1.从平衡二叉树的名字中可以看出来,它是一种高度平衡的二叉排序树.那么什么叫做高度平衡呢?意思就是要么它 ...

hadoop学习笔记（九）：MapReduce程序的编写

一、MapReduce主要继承两个父类：

Map

Reduce

二、使用代码实现WordCount：

hadoop学习笔记（九）：MapReduce程序的编写的更多相关文章

随机推荐

热门专题