Hadoop基础------>MR框架-->WordCount

认识Mapreduce
Mapreduce编程思想
Mapreduce执行流程
java版本WordCount实例

1.　　简介：

　　Mapreduce源于Google一遍论文，是谷歌Mapreduce的克隆版，他充分借鉴了分而治之的思想，讲一个数据处理过程拆分为主要的Map(映射)和Reduce(归并)两步，只需要编写map函数和reduce函数即可。

2.　　Mapreduce优势：

　　分布式带来了三个复杂：1.程序的分布和启动

　　　　　　　　　　　　　2.任务的监控和失败处理

　　　　　　　　　　　　　3.中间数据的缓存和调度

然后Mapreduce是一个并行程序设计模型与方法和好的解决了以上的缺点，并具有：1开发简单

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2可扩展性强

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　3.容错性强

3　　Mapreduce的执行流程图：

3-2　　Mapreduce的实现过程图：

4　　基层案例：

开发步骤：
- 　　1.新建项目导入所需的jar包
- 2.编写Mapper类
- 3.编写Reduce类
- 4.提交任务
- 5.观察结果

4-1　　Mapper类：继承Mapper类重写map方法在父类中需要定义个泛型，含别4个设置，分别是：KEYIN,VALUEIN,KEYOUT,VALUEOUT

KEYIN：读入每行文件开头的偏移量(首行偏移量)
VALUEIN：读入每行文件内容的类型
KEYOUT：表示Mapper完毕后，输出的文件作为KEY的数据类型
VALUEOUT：表示Mapper完毕后，输出的文件作为VALUE的数据类型

执行流程：

读取一行数据
按照规则截取
获取有效数据
将数据写到上下文中

　　实例：

public class WordCount {

static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

        @Override

        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

                throws IOException, InterruptedException {

            //读取一行数据

            String line = value.toString();

            //根据指定规则截取数据

            String [] words = line.split(" ");

            //获取有效数据

            for (int i = 0; i < words.length; i++) {

                //将数据写入上下文

                context.write(new Text(words[i]), new IntWritable(1));

            }

        }

    }

}

4-2　　Reduce类：在写的时候需要继承Reducer类重写ducer方法在父类中需要定义个泛型，含别4个设置，分别是：KEYIN,VALUEIN,KEYOUT,VALUEOUT

KEYIN：表示从mapper中传递过来的key的数据的数据类型
VALUEIN：表示从mapper中传递过来的value的数据的数据类型
KEYOUT：表示Reducer完毕后，输出的文件作为KEY的数据类型
VALUEOUT：表示Reducer完毕后，输出的文件作为VAKUE的数据类型

执行流程：

定义一个空的变量来接受定义的值(累加器)
遍历values集合，累加统计
将结果写入上下文中

　　实例：

static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values,

                Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

            //定义空变量

            int i = 0 ;

            //遍历values集合，累加统计

            for (IntWritable value : values) {

                i += value.get();

            }

            //写入上下文

            context.write(key, new IntWritable(i));

        }

    }

4-3　　提交类编写流程：

创建Configuration
准备清理已存在的输出目录
创建Jop
设置job的提交类
设置mapper相关的类和参数
设置reduce相关的类和参数
提交任务

　　实例：

public static void main(String[] args) throws Exception {

        //加载配置文件

        Configuration config = new Configuration();

        //创建job对象

        Job job = Job.getInstance(config);

        //设置提交主类

        job.setJarByClass(wordCountApp.class);

        //设置mapper相关设置提交主类

        job.setMapperClass(WordCountMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        //设置reducer相关

        job.setReducerClass(WordCountReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //设置输入路径（必须存在hdfs上）

        FileInputFormat.setInputPaths(job, new Path("/score.txt"));

        //设置输出路径

        FileOutputFormat.setOutputPath(job, new Path("/ouput10"));

        //提交任务

        job.waitForCompletion(true);

    }

使用eclipse导出架包，并通关传输软件到LinuX上最后完成上传

Hadoop基础------>MR框架-->WordCount的更多相关文章

Hadoop基础学习框架
我们主要使用Hadoop的2个部分:分布式文件存储系统(HDFS)和MapReduce计算模型. 关于这2个部分,可以参考一下Google的论文:The Google File System 和 Ma ...
hadoop之mr框架的源码理解注意点
1.reduce源码中的 GroupComparable和SecondaryComparable到底都是干什么的理解点1: 源码位置理解点 secondaryComparable这个是可以对map ...
Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码
Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习MapReduce时的一些 ...
Hadoop基础-配置历史服务器
Hadoop基础-配置历史服务器作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比 ...
Hadoop基础-MapReduce的工作原理第一弹
Hadoop基础-MapReduce的工作原理第一弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在本篇博客中,我们将深入学习Hadoop中的MapReduce工作机制,这些知识 ...
Hadoop基础-MapReduce的常用文件格式介绍
Hadoop基础-MapReduce的常用文件格式介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MR文件格式-SequenceFile 1>.生成SequenceF ...
Hadoop基础原理
Hadoop基础原理作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 业内有这么一句话说:云计算可能改变了整个传统IT产业的基础架构,而大数据处理,尤其像Hadoop组件这样的技术出 ...
Hadoop【MR开发规范、序列化】
Hadoop[MR开发规范.序列化] 目录 Hadoop[MR开发规范.序列化] 一.MapReduce编程规范 1.Mapper阶段 2.Reducer阶段 3.Driver阶段二.WordCou ...
Hadoop MapReduceV2(Yarn) 框架简介[转]
对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介.使用和学习过老 H ...

随机推荐

我没学过计算机，是怎么接了四个私活还挣了两个 iPad 的？
你好,我是悟空哥,「7年项目开发经验,全栈工程师,开发组长,超喜欢图解编程底层原理」.我还手写了2个小程序,Java刷题小程序,PMP刷题小程序.我的 GitHub. 前言大家看到这篇文章的时候,我 ...
Hbuilder给手机发送短信与拨打电话
前言:业务场景需要给手机号码拨打电话与发送短信.html5已经提供接口. methods: { Call: function() { var that = this; if(that.ptel == ...
MDK内的KEEP关键字以及$$Base $$Limit
使用mdk编程,假如有一个有用的函数你定义了但是没有显式的调用,mdk在默认方式下,将会把这个函数从整个程序总删除掉,以节省ROM. 比如,你在ROM的0x00002000处定位了一个函数,假设为vo ...
解决Use 'LimitInternalRecursion' to increase the limit if necessary的问题 CodeIgniter .htaccess
配置.htaccess如下: RewriteEngine on RewriteBase / RewriteCond $1 !^(index\.php|images|robots\.txt|css|js ...
01 AS 首次编译执行项目过程中遇到的几个常见问题
问题01 as打开时出现The environment variable JAVA_HOME (with The value of C:\Java\jdk1.8.0_101\bin) does not ...
Arduino 中 EEprom 写入读取清除
转自:https://www.arduino.cn/thread-1157-1-1.html EEPROM (Electrically Erasable Programmable Read-Only ...
C++派生类与基类的关系
派生类与基类有这些关系: 1.公有派生类从基类继承所有成员和成员函数 2.公有派生类无法直接访问从基类继承的私有成员,但可以通过继承的公共接口访问. 3.公有派生类无法继承基类的友元函数. 4.基类先 ...
sql注入里关键字绕过的发现
网上大量文章,甚至<黑客攻防技术实战宝典-WEB实战篇>里面都说一些关键字如 select 等绕过可以用注释符/**/. 例如: select,union.可以用 ,se/**/lect, ...
Oracle使用技巧
Edit/Undo Ctrl+ZEdit/Redo Shift+Ctrl+ZEdit/PL/SQL Beautifier Ctrl+W (自定义) Shift+Home 选择光标位置到行首 Shift ...
BASH让标准输出和错误输出颜色不同
shell中运行的程序输出有标准输出(stdout)和错误输出(stderr)两种.当在终端中运行一个进程时,默认是stdout和stderr混在一起的,需要区分只能去读内容,人眼不容易快速区分. 如 ...

Hadoop基础------>MR框架-->WordCount

认识Mapreduce

Mapreduce编程思想

Mapreduce执行流程

java版本WordCount实例

Hadoop基础------>MR框架-->WordCount的更多相关文章

随机推荐

热门专题