初识MapReduce

一、什么是MapReduce

MapReduce是一种编程范式，它借助Map将一个大任务分解成多个小任务，再借助Reduce归并Map的结果。MapReduce虽然原理很简单，但是使用MapReduce设计出一个解决问题的应用却不是一件简单的事情。下面通过一个简单的小例子来介绍MapReduce。

二、使用MapReduce寻找销售人员业绩最大值

《Hadoop权威指南》的例子是寻找天气最大值，需要去下载数据。但是我们并不需要完全复刻他的场景，所以这里用了另外一个例子。假设有一批销售日志数据文件，它的一部分是这样的。

66$2021-01-01$5555

67$2021-01-01$5635

每一行代表某一位销售人员某个日期的销售数量，具体格式为

销售用户id$统计日期$销售数量

我们需要寻找每一个销售用户的销售最大值是多少。需要说明的是，这里仅仅是举一个很简单的示例，便于学习MapReduce。

1、数据解析器

我首先写了一个解析器来识别每一行的文本，它的作用是将每一行文本转换为数据实体，数据实体这里偷了个懒，字段全部设置成了public。代码片段如下：

/**

 * 销售数据解释器

 * 销售数据格式为

 * userId$countDate(yyyy-MM-dd)$saleCount

 */

public class SaleDataParse implements TextParse<SaleDataEntity> {

    @Override

    public SaleDataEntity parse(String text) {

        if (text == null) {

            return null;

        }

        text = text.trim();

        if (text.isEmpty()) {

            return null;

        }

        SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

        String[] split = text.split("\\$");

        SaleDataEntity data = new SaleDataEntity();

        data.userId = Long.valueOf(split[0]);

        data.countDate = sdf.parse(split[1], new ParsePosition(0));

        data.saleCount = Integer.valueOf(split[2]);

        return data;

    }

}

/**

 * 销售数据实体

 */

public class SaleDataEntity {

    /**

     * 销售用户id

     */

    public Long userId;

    /**

     * 销售日期

     */

    public Date countDate;

    /**

     * 销售总数

     */

    public Integer saleCount;

}

2、Map函数

Mapper是一个泛型类，它需要4个泛型参数，从左到右分别是输入键、输入值、输出键和输出值。也就是这样

Mapper<输入键, 输入值, 输出键, 输出值>

其中输入键和输入值的格式是由InputFormatClass决定的，关于输入格式的讨论之后会展开讨论。MapReduce默认会把文件按行拆分，然后偏移量（输入键）->行文本（输入值）的映射传递给Mapper的map方法。输出键和输出值则由用户进行指定。

这里由于是找每一个用户的最大销售数量，Mapper的功能是接收并解析每行数据。所以输出键我设成了销售人员id->销售数量的映射。所以实际的Mapper实现看起来像这样：

/**

 * 解析输入的文本数据

 */

public class MaxSaleMapper extends Mapper<LongWritable, Text, LongWritable, IntWritable> {

    protected TextParse<SaleDataEntity> saleDataParse = new SaleDataParse();

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String s = value.toString();

        SaleDataEntity data = saleDataParse.parse(s);

        if (data != null) {

            //写入输出给Reducer

            context.write(new LongWritable(data.userId), new IntWritable(data.saleCount));

        }

    }

}

其中LongWritable相当于java里的long，Text相当于java里的String，IntWritable相当于java里的int。

这里你可能会想到，既然已经解析成了数据实体，为什么不直接把实体设置成输出值？因为map函数和reduce函数不一定运行在同一个进程里，所以会涉及到序列化和反序列化，这里先不展开。

3、Reduce函数

Reducer也是一个泛型类，它也需要4个参数，从左到右分别是输入键、输入值、输出键和输出值。也就是这样

Reducer<输入键, 输入值, 输出键, 输出值>

与Mapper不同的是，输入键和输入值来源于Mapper的输出，也就是Mapper实现中的context.write()。

输出键和输出值也是由用户指定，默认的输出会写到文件中，关于Reducer的输出以后会讨论。

Reducer的功能是寻找每个用户的最大值，所以Reducer的实现看起来像这样：

/**

 * 查找每一个用户的最大销售值

 */

public class MaxSaleReducer extends Reducer<LongWritable, IntWritable, LongWritable, IntWritable> {

    @Override

    protected void reduce(LongWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int max = 0;

        for (IntWritable value : values) {

            if (value.get() > max) {

                max = value.get();

            }

        }

        context.write(key, new IntWritable(max));

    }

}

你可能会奇怪，为什么reduce方法的第二个参数是一个迭代器。简单来说，Mapper会把映射的值进行归并，然后再传递给Reducer。

4、驱动程序

我们已经完成了map和reduce函数的实现，现在我们需要把它们组装起来。我们需要写一个Main类，它看起来像这样

public class MaxSale {

    public static void main(String[] args) throws Exception {

        Job job = Job.getInstance();

        job.setJarByClass(MaxSale.class);

        job.setJobName("MaxSale");

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.setMapperClass(MaxSaleMapper.class);

        job.setMapOutputKeyClass(LongWritable.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setReducerClass(MaxSaleReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //设置Reduce任务数

        job.setNumReduceTasks(1);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

这里解释一下

首先我们创建了一个Job
然后设置输入目录和输出目录，它们分别是FileInputFormat.addInputPath和FileOutputFormat.setOutputPath
使用setMapperClass设置了map函数，setMapOutputKeyClass设置了map函数的输入键类型，setMapOutputValueClass设置了输出键类型
使用setReducerClass设置了reduce函数，setOutputKeyClass设置了输出键类型，setOutputValueClass设置了输出值类型
然后使用setNumReduceTasks设置reduce任务个数为1，每个reduce任务都会输出一个文件，这里是为了方便查看
最后job.waitForCompletion(true)启动并等待任务结束

5、运行结果

使用maven package打包，会生成一个jar，我生成的名字是maxSaleMapReduce-1.0-SNAPSHOT.jar。如果打包的jar有除了Hadoop的其他依赖，需要设置一下HADOOP_CLASSPATH，然后把依赖放到HADOOP_CLASSPATH目录中。

最后输入启动命令，格式为：hadoop jar 生成的jar.jar 输入数据目录输出数据目录。这里给出我使用的命令示例：

Windows：

set HADOOP_CLASSPATH=C:\xxxxxxxxx\lib\*

hadoop jar maxSaleMapReduce-1.0-SNAPSHOT.jar input output

然后你会看到程序有如下输出，这里截取的部分：

23/01/18 12:10:29 INFO mapred.MapTask: Starting flush of map output

23/01/18 12:10:29 INFO mapred.MapTask: Spilling map output

23/01/18 12:10:29 INFO mapred.MapTask: bufstart = 0; bufend = 17677320; bufvoid = 104857600

23/01/18 12:10:29 INFO mapred.MapTask: kvstart = 26214396(104857584); kvend = 20321960(81287840); length = 5892437/6553600

23/01/18 12:10:30 INFO mapred.MapTask: Finished spill 0

23/01/18 12:10:30 INFO mapred.Task: Task:attempt_local1909247000_0001_m_000000_0 is done. And is in the process of committing

23/01/18 12:10:30 INFO mapred.LocalJobRunner: map

23/01/18 12:10:30 INFO mapred.Task: Task 'attempt_local1909247000_0001_m_000000_0' done.

23/01/18 12:10:30 INFO mapred.Task: Final Counters for attempt_local1909247000_0001_m_000000_0: Counters: 17

        File System Counters

                FILE: Number of bytes read=33569210

                FILE: Number of bytes written=21132276

                FILE: Number of read operations=0

                FILE: Number of large read operations=0

                FILE: Number of write operations=0

        Map-Reduce Framework

                Map input records=1473110

                Map output records=1473110

                Map output bytes=17677320

                Map output materialized bytes=20623546

                Input split bytes=122

                Combine input records=0

                Spilled Records=1473110

                Failed Shuffles=0

                Merged Map outputs=0

                GC time elapsed (ms)=36

                Total committed heap usage (bytes)=268435456

        File Input Format Counters

                Bytes Read=33558528

23/01/18 12:10:30 INFO mapred.LocalJobRunner: Finishing task: attempt_local1909247000_0001_m_000000_0

23/01/18 12:10:30 INFO mapred.LocalJobRunner: Starting task: attempt_local1909247000_0001_m_000001_0

23/01/18 12:10:30 INFO output.FileOutputCommitter: File Output Committer Algorithm version is 1

23/01/18 12:10:30 INFO output.FileOutputCommitter: FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false

等待程序执行结束，output文件夹会有输出part-r-00000，文件里每一行是每一个用户的id和他销售最大值。

三、MapReduce执行流程

简单分析一下这个示例程度的执行流程：

首先输入文件被按行切分，输入到各个maper
maper的输出按输出键进行分类，经过shuffle操作后输入到reducer
reducer收到maper的输出后，执行寻找最大值操作，然后输出
输出会被默认的输出格式格式化后输出到文件part-r-00000中

四、示例代码说明

本文所有的代码放在我的github上，地址是：https://github.com/xunpengliu/hello-hadoop

下面是项目目录说明：

maxSaleMapReduce模块是Map函数和Reduce的实现，这个模块依赖common模块。所以运行的时候需要把common模块生成的jar添加到HADOOP_CLASSPATH中
common模块是公共模块，里面有一个SaleDataGenerator的数据生成器，可以生成本次示例代码使用的生成数据

最后需要说明的是，项目代码主要用于学习，代码风格并非代表本人实际风格，不完善之处请轻喷。

五、常见问题

java.lang.RuntimeException: java.io.FileNotFoundException: Could not locate Hadoop executable: xxxxxxxxxxxx\bin\winutils.exe -see https://wiki.apache.org/hadoop/WindowsProblems

这个是因为没有下载winutils.exe和hadoop.dll，具体可以参考《安装一个最小化的Hadoop》中windows额外说明
运行出现异常java.lang.NullPointerException

at java.lang.ProcessBuilder.start(ProcessBuilder.java:1012)

at org.apache.hadoop.util.Shell.runCommand(Shell.java:482)

at org.apache.hadoop.util.Shell.run(Shell.java:455)

at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:702)

......

这个和问题1类似，Hadoop在Windows需要winutils.exe和hadoop.dll访问文件，这两个文件通过org.apache.hadoop.util.Shell#getQualifiedBinPath这个方法获取，而这个方法又依赖Hadoop的安装目录。

设置HADOOP_HOME环境变量，或者传入系统参数hadoop.home.dir为Hadoop程序目录，具体参见《安装一个最小化的Hadoop》

03初识MapReduce的更多相关文章

Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
初识MapReduce
MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来说,自己完完全全实现一个并行计算程序难 ...
Hadoop点滴-初识MapReduce（2）
术语: job(作业):客户端需要执行的一个工作单元,包括输入数据.MP程序.配置信息 Hadoop将job分成若干task(任务)来执行,其中包括两类任务:map任务.reduce任务.这些任务在集 ...
Linux学习笔记03—初识Linux
命令介绍忘记root密码的处理方法系统安装盘的救援模式的使用一.命令介绍 1.LS命令 ls 查看当前目录下的文件 Ls –l 等同于ll 查看目录的详细信息 Ls –a 查看当前目录下的所有文 ...
Hadoop点滴-初识MapReduce（1）
分析气候数据,计算出每年全球最高气温(P25页) Map阶段:输入碎片数据,输出一系列“单键单值”键值对内部处理,将一系列“单键单值”键值对转化成一系列“单键多值”键值对 Reduce阶段,输入“单 ...
前端知识(一)03 初识 ECMAScript 6-谷粒学院
目录一.ECMAScript 6 1.什么是 ECMAScript 6 2.ECMAScript 和 JavaScript 的关系二.基本语法 1.let声明变量 2.const声明常量(只读变量 ...
对于Hadoop的MapReduce编程makefile
根据近期需要hadoop的MapReduce程序集成到一个大的应用C/C++书面框架.在需求make当自己主动MapReduce编译和打包的应用. 在这里,一个简单的WordCount1一个例子详细的 ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
如何在maven项目里面编写mapreduce程序以及一个maven项目里面管理多个mapreduce程序
我们平时创建普通的mapreduce项目,在遍代码当你需要导包使用一些工具类的时候, 你需要自己找到对应的架包,再导进项目里面其实这样做非常不方便,我建议我们还是用maven项目来得方便多了话不多说 ...
Hadoop Mapreduce 参数（一）
参考 hadoop权威指南第六章,6.4节背景 hadoop,mapreduce就如MVC,spring一样现在已经是烂大街了,虽然用过,但是说看过源码么,没有,调过参数么?调过,调到刚好能跑起来 ...

随机推荐

【第1篇】人工智能（AI）语音测试原理和实践---宣传
前言本文主要介绍作者关于人工智能(AI)语音测试的各方面知识点和实战技术. 本书共分为9章,第1.2章详细介绍人工智能(AI)语音测试各种知识点和人工智能(AI)语音交互原理:第3.4章介绍人工智 ...
一篇文章带你了解轻量级Web服务器——Nginx简单入门
一篇文章带你了解轻量级Web服务器--Nginx简单入门 Nginx是一款轻量级的Web服务器/反向代理服务器及电子邮件代理服务器在本篇中我们会简单介绍Nginx的特点,安装,相关指令使用以及配置信 ...
raid 5搭建部署
raid 5搭建部署软raid与备份 1.用四块磁盘做实验,三块盘搭建raid阵列组,有一块当作备份可以使用raid 5来搭建三块磁盘的阵列组创建命令如下: [root@xiaohaoge ~]# ...
k8s之pod连接被拒排查
k8s之pod连接被拒排查 pod链接被拒查看pod的时候发现pod的状态为crashloopbackoff 然后看看日志发现报错如下 kubectl -n kf10 logs easydata-r ...
Atcoder beginner contest 249 C-Just K（二进制枚举）
题目大意:给你N个字符串,你可以从中选择任意数量的字符串,请统计在你的字串中,相同字母出现次数正好为K次的字母数.数据保证出现的字母都是小写字母. 1≤N≤15 1 ≤K≤N 一开始读题的时候读错了, ...
正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re
目录正则表达式前戏正则表达式之字符组正则表达式之特殊符号正则表达式之量词贪婪匹配与非贪婪匹配转义符正则表达式实战建议 re模块 re模块补充说明作业正则表达式前戏案例:京东注册手机 ...
【每日一题】【上右下左模拟&while循环体条件不满足时】54.螺旋矩阵-211110/220204
给你一个 m 行 n 列的矩阵 matrix ,请按照顺时针螺旋顺序 ,返回矩阵中的所有元素. 解答:while循环内部不满足也会继续走到结尾 import java.util.ArrayList; ...
【每日一题】【哈希表，返回结果的下标】2022年1月18日-NC61 两数之和
描述给出一个整型数组 numbers 和一个目标值 target,请在数组中找出两个加起来等于目标值的数的下标,返回的下标按升序排列.(注:返回的数组下标从1开始算起) 算法: import java ...
【每日一题】【队列的实现类】【每层元素个数】2022年1月11日-NC15 求二叉树的层序遍历
描述给定一个二叉树,返回该二叉树层序遍历的结果,(从左到右,一层一层地遍历)例如:给定的二叉树是{3,9,20,#,#,15,7}, 注意:每一层上元素的个数解答: import java.util ...
【JVM调优】Day01：Garbage的概念、垃圾回收的算法（标记清除、拷贝、标记压缩）、各种垃圾回收器（Serial、Parallel、CMS并发）及存在的问题
〇.前言简历写上:熟悉GC常用算法,熟悉常见垃圾回收器.具有实际JVM调优实战经验瞬间涨3k 一.什么是garbage Java中垃圾回收器自动进行垃圾回收,不用自己回收 new 对象在内存中,c ...

03初识MapReduce