MapReduce实战1

MapReduce编程规范：

（1）用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行mr程序的客户端)

（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）

（3）Mapper的输出数据是KV对的形式（KV的类型可自定义）

（4）Mapper中的业务逻辑写在map()方法中

（5）map()方法（maptask进程）对每一个<K,V>调用一次

（6）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV

（7）Reducer的业务逻辑写在reduce()方法中

（8）Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法

（9）用户自定义的Mapper和Reducer都要继承各自的父类

（10）整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象

WordCount:在给定的文本文件中统计输出每一个单词出现的总次数

 package com.ahu.bigdata.mr;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 在给定的文本文件中统计出每一个单词出现的总次数

  *

  * @author ahu_lichang

  *

  */

 public class WordCountDriver {

     /**

      * 自定义mapper类

      *

      * @author ahu_lichang

      *

      */

     static class WordCountMapper extends

             Mapper<LongWritable, Text, Text, IntWritable> {

         // map方法的生命周期：框架每传一行数据就被调用一次

         // key:这一行的起始点在文件中的偏移量

         // value:这一行的内容

         @Override

         protected void map(LongWritable key, Text value, Context context)

                 throws IOException, InterruptedException {

             // 拿到一行数据转换为String

             String line = value.toString();

             // 将这一行切分出各个单词

             String[] words = line.split("\t");

             // 遍历数组，输出<单词，1>

             for (String word : words) {

                 context.write(new Text(word), new IntWritable(1));

             }

         }

     }

     /**

      * 自定义一个reducer类

      *

      * @author ahu_lichang

      *

      */

     static class WordCountReducer extends

             Reducer<Text, IntWritable, Text, IntWritable> {

         // reduce生命周期：框架每传递进来一个KV组，reduce方法就被调用一次

         @Override

         protected void reduce(Text key, Iterable<IntWritable> values,

                 Context context) throws IOException, InterruptedException {

             // 定义一个计数器

             int count = 0;

             // 遍历这一组KV的所有V,累加到count中

             for (IntWritable value : values) {

                 count += value.get();

             }

             context.write(key, new IntWritable(count));

         }

     }

     private static final String INPUT_PATH = "hdfs://hadoop1:9000/data.txt";

     private static final String OUT_PATH = "hdfs://hadoop1:9000/wcoutput";

     // WordCountDriver是一个主类，用来描述job并提交job

     // 相当于一个yarn集群的客户端

     // 需要在此封装我们的mr程序的相关运行参数，指定jar包

     // 最后提交给yarn

     public static void main(String[] args) throws Exception {

         if (args == null || args.length == 0) {

             args = new String[2];

             args[0] = INPUT_PATH;

             args[1] = OUT_PATH;

         }

         // 把业务逻辑相关的信息（哪个是mapper,哪个是reducer，要处理的数据在哪里，输出的结果放在哪里...）描述成一个job对象

         // 把这个描述好的job提交给集群去运行

         Configuration conf = new Configuration();

         Job job = Job.getInstance(conf);

         // 指定这个job所在的jar包

         // job.setJar("/usr/local/wordcount.jar");

         job.setJarByClass(WordCountDriver.class);

         job.setMapperClass(WordCountMapper.class);

         job.setReducerClass(WordCountReducer.class);

         // 设置业务逻辑Mapper类的输出key和value的数据类型

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         // 设置业务逻辑Reducer类的输出key和value的数据类型

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         // 指定job的输入原始文件所在目录

         //FileInputFormat.setInputPaths(job, new Path(INPUT_PATH));

         FileInputFormat.setInputPaths(job, new Path(args[0]));

         // 指定job的输出结果所在目录

         //FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));

         FileOutputFormat.setOutputPath(job, new Path(args[1]));

         // 将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn集群去运行

         /* job.submit(); */

         boolean res = job.waitForCompletion(true);

         System.exit(res ? 0 : 1);

     }

 }

1、先在eclipse工程中创建一个用户类库hadoop264jar，将hadoop安装目录中的share文件夹中的common、hdfs、MapReduce、yarn中的jar包全部添加进去。

2、书写代码：创建一个mapper自定义类，在创建一个reducer自定义类，最后创建一个描述job并提交job的主类。

3、运行方式有两种：

　　　　　　（1）直接在eclipse中运行。但是会出现个权限拒绝错误，那是因为没有身份标识造成的。这里再介绍第二种身份标识方式：（第一种身份标识方式，见《HDFS详解》）

　　　　　　（2）在集群上打包运行。先将书写好的代码打成jar包，然后将wordcount.jar复制到Linux的/usr/local/目录下，然后就可以在命令行中运行了。

　　　　　　　　hadoop jar /usr/local/wordcount.jar /data.txt /wcout

MapReduce程序运行模式：

1、本地运行模式

2、集群运行模式

MapReduce中的Combiner（归约）《Combiner》里面有代码示例

（1）combiner是MR程序中Mapper和Reducer之外的一种组件

（2）combiner组件的父类就是Reducer

（3）combiner和reducer的区别在于运行的位置：

　　　　Combiner是在每一个maptask所在的节点运行

　　　　Reducer是接收全局所有Mapper的输出结果；

(4) combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量

具体实现步骤：

　　1、自定义一个combiner继承Reducer，重写reduce方法

　　2、在job中设置： job.setCombinerClass(CustomCombiner.class)

(5) combiner能够应用的前提是不能影响最终的业务逻辑。而且，combiner的输出kv应该跟reducer的输入kv类型要对应起来

注意：

Combiner的使用要非常谨慎

因为combiner在mapreduce过程中可能调用也可能不调用，可能调一次也可能调多次

所以：combiner使用的原则是：有或没有都不能影响业务逻辑

MapReduce实战1的更多相关文章

MapReduce实战：统计不同工作年限的薪资水平
1.薪资数据集我们要写一个薪资统计程序,统计数据来自于互联网招聘hadoop岗位的招聘网站,这些数据是按照记录方式存储的,因此非常适合使用 MapReduce 程序来统计. 2.数据格式我们使用的 ...
mapreduce实战：统计美国各个气象站30年来的平均气温项目分析
气象数据集我们要写一个气象数据挖掘的程序.气象数据是通过分布在美国各地区的很多气象传感器每隔一小时进行收集,这些数据是半结构化数据且是按照记录方式存储的,因此非常适合使用 MapReduce 程序来 ...
MapReduce实战--倒排索引
本文地址:http://www.cnblogs.com/archimedes/p/mapreduce-inverted-index.html,转载请注明源地址. 1.倒排索引简介倒排索引(Inver ...
MapReduce实战（三）分区的实现
需求: 在实战(一)的基础上,实现自定义分组机制.例如根据手机号的不同,分成不同的省份,然后在不同的reduce上面跑,最后生成的结果分别存在不同的文件中. 对流量原始日志进行流量统计,将不同省份的 ...
MapReduce实战：邮箱统计及多输出格式实现
紧接着上一篇博文我们学习了MapReduce得到输出格式之后,在这篇博文里,我们将通过一个实战小项目来熟悉一下MultipleOutputs(多输出)格式的用法. 项目需求: 假如这里有一份邮箱数据文 ...
MapReduce实战项目：查找相同字母组成的字谜
实战项目:查找相同字母组成的字谜项目需求:一本英文书籍中包含有成千上万个单词或者短语,现在我们要从中找出相同字母组成的所有单词. 数据集和期望结果举例: 思路分析: 1)在Map阶段,对每个word ...
《OD大数据实战》MapReduce实战
一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4 ...
【原创】MapReduce实战（一）
应用场景: 用户每天会在网站上产生各种各样的行为,比如浏览网页,下单等,这种行为会被网站记录下来,形成用户行为日志,并存储在hdfs上.格式如下: 17:03:35.012ᄑpageviewᄑ{&qu ...
MapReduce实战（七）GroupingComparator
需求: Order_0000001,Pdt_01,222.8Order_0000001,Pdt_05,25.8Order_0000002,Pdt_05,325.8Order_0000002,Pdt_0 ...

随机推荐

bzoj2817[ZJOI2012]波浪
题目链接: http://www.lydsy.com/JudgeOnline/problem.php?id=2817 波浪 [问题描述] 阿米巴和小强是好朋友. 阿米巴和小强在大海旁边看海水的波涛.小 ...
结合NTLM中继和Kerberos委派攻击AD
0x00 前言在上个月我深入演讲了无约束委派之后,本文将讨论一种不同类型的Kerberos委派:基于资源的约束委派.本文的内容基于Elad Shamir的Kerberos研究,并结合我自己的NTLM ...
mysql主主同步设置
mysql主主同步设置主主同步设置是同等的地位,所以以下操作在两台机器上都需要进行而且操作是相同的. 服务器服务器代号 IP hostname A 192.168.70.128 Debian1 B ...
第一节 Spring的环境搭建
正在构建,扫一扫,敬请期待和玩得来的人在一起玩才叫玩! 和玩不来的人在一起玩,那种感觉就像加班啊! 关注胖个人微信公众账号,希望对各位学生有所帮助! --胖先生 Spring框架,什么是Sprin ...
disabled属性对form表单向后台传值的影响
在form表单里,如果对input加入disabled="disabled"或disabled="true"等属性,form表单提交的时候,就不会传值到后台. ...
bzoj千题计划285：bzoj2555: SubString
http://www.lydsy.com/JudgeOnline/problem.php?id=2555 后缀自动机,用LCT维护parent树一个串的出现次数 = parent 树上其所在状态 ...
POJ 3710 无向图简单环树上删边
结论题,这题关键在于如何转换环,可以用tarjan求出连通分量后再进行标记,也可以DFS直接找到环后把点的SG值变掉就行了 /** @Date : 2017-10-23 19:47:47 * @Fil ...
js 正则学习小记之匹配字符串字面量
今天看了第5章几个例子,有点收获,记录下来当作回顾也当作分享. 关于匹配字符串问题,有很多种类型,今天讨论 js 代码里的字符串匹配.(因为我想学完之后写个语法高亮练手,所以用js代码当作例子) va ...
20155203 2016-2017-3 《Java程序设计》第5周学习总结
20155203 2016-2017-3 <Java程序设计>第5周学习总结教材学习内容总结课堂知识总结封装是继承的基础,继承是多态的基础.多态是用父类声明对象的引用,用子类生成对象 ...
第7月第25天 xcode bundle calayer动画
1. http://www.jianshu.com/p/3755c35ac87f 2.calayer http://www.jianshu.com/p/aadfce72bf74

MapReduce实战1

MapReduce实战1的更多相关文章

随机推荐

热门专题