Hadoop基础-Map端链式编程之MapReduce统计TopN示例

　　　　　　　　　Hadoop基础-Map端链式编程之MapReduce统计TopN示例

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

一.项目需求

　　对“temp.txt”中的数据进行分析，统计出各个年份（第15~19列）总排行前十的最高气温（第87~92列），由于博客园无法上传大文件的文本，因此我把该文本的内容放在博客园的另一个链接了（需要的戳我）。，如果网页打不开的话也就可以去百度云盘里下载副本，链接：链接：https://pan.baidu.com/s/12aZFcO2XoegUGMAbS--n6Q 密码：7n91。

二.代码实现

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.WritableComparable;

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 public class CompKey implements WritableComparable<CompKey> {

     private String year;

     private int temp;

     /**

      * 重写CompKey对年份和气温排序

      */

     public int compareTo(CompKey o) {

         if(this.getYear().equals(o.getYear())){

             return o.getTemp() - this.getTemp();

         }

         return this.getYear().compareTo(o.getYear());

     }

     public void write(DataOutput out) throws IOException {

         out.writeUTF(year);

         out.writeInt(temp);

     }

     public void readFields(DataInput in) throws IOException {

         year = in.readUTF();

         temp = in.readInt();

     }

     public String getYear() {

         return year;

     }

     public void setYear(String year) {

         this.year = year;

     }

     public int getTemp() {

         return temp;

     }

     public void setTemp(int temp) {

         this.temp = temp;

     }

     @Override

     public String toString() {

         return year + '\t' +temp ;

     }

 }

CompKey.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.WritableComparable;

 import org.apache.hadoop.io.WritableComparator;

 public class MyGroupComparator extends WritableComparator {

     public MyGroupComparator() {

         super(CompKey.class,true);

     }

     public int compare(WritableComparable a, WritableComparable b) {

         CompKey ck1 = (CompKey) a;

         CompKey ck2 = (CompKey) b;

         return ck1.getYear().compareTo(ck2.getYear());

     }

 }

MyGroupComparator.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class ChainMapper1 extends Mapper<LongWritable, Text, Text, IntWritable> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         String line = value.toString();

         //得到年份

         String year = line.substring(15, 19);

         //得到气温

         int temp = Integer.parseInt(line.substring(87, 92));

         context.write(new Text(year), new IntWritable(temp));

     }

 }

ChainMapper1.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class ChainMapper2 extends Mapper<Text,IntWritable,CompKey,NullWritable> {

     @Override

     protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {

         int i = value.get();

         if( i != 9999){

             CompKey ck = new CompKey();

             ck.setYear(key.toString());

             ck.setTemp(i);

             context.write(ck,NullWritable.get());

         }

     }

 }

ChainMapper2.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 import java.io.IOException;

 import java.util.Iterator;

 public class ChainReducer1 extends Reducer<CompKey, NullWritable, Text, IntWritable> {

     //由于分组对比器设定，相同的year放在一个分组,因此，在一个reduce循环中，得到的数据均为同一年份的数据

     protected void reduce(CompKey key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

         String year = key.getYear();

         Iterator<NullWritable> it = values.iterator();

         int i = 0;

         while (it.hasNext()){

             System.out.println(key.toString());

             int temp = key.getTemp();

             context.write(new Text(year), new IntWritable(temp));

             it.next();

             i++;

             if(i >= 10){

                 break;

             }

         }

     }

 }

ChainReducer1.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class ChainReducer2 extends Mapper<Text, IntWritable, Text,IntWritable> {

     protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {

         int temp = value.get();

         //取得奇数气温

         if( temp % 2 == 1 ){

             context.write(key, new IntWritable(temp));

         }

     }

 }

ChainReducer2.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.mrchain;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.chain.ChainMapper;

 import org.apache.hadoop.mapreduce.lib.chain.ChainReducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class ChainApp {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS","file:///");

         Job job = Job.getInstance(conf);

         FileSystem fs = FileSystem.get(conf);

         job.setJobName("Chain");

         job.setJarByClass(ChainApp.class);

         //在MapChain中，一个Map后面可以跟n多Map

         ChainMapper.addMapper(job,ChainMapper1.class,LongWritable.class, Text.class,

                 Text.class, IntWritable.class,conf);

         ChainMapper.addMapper(job,ChainMapper2.class,Text.class,IntWritable.class,

                 CompKey.class,NullWritable.class,conf);

         //在ReduceChain中，一个Reduce中不能跟reduce,只能跟map

         ChainReducer.setReducer(job,ChainReducer1.class,CompKey.class,NullWritable.class,

                 Text.class,IntWritable.class,conf);

         ChainReducer.addMapper(job,ChainReducer2.class, Text.class, IntWritable.class,

                 Text.class,IntWritable.class, conf);

         job.setGroupingComparatorClass(MyGroupComparator.class);

         //判断是否存在，如果存在则删除

         Path outPath = new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\out");

         if(fs.exists(outPath)){

             fs.delete(outPath,true);

         }

         //输入路径

         FileInputFormat.addInputPath(job,new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\temp"));

         //输出路径

         FileOutputFormat.setOutputPath(job,outPath);

         job.waitForCompletion(true);

     }

 }

Hadoop基础-Map端链式编程之MapReduce统计TopN示例的更多相关文章

Android框架式编程之Android Architecture Components
1. 当前Android开发面临的问题 Android开发不同于传统的桌面程序开发,桌面程序一般都有唯一的快捷方式入口,并且常作为单进程存在:而一个典型的Android应用通常由多个应用组件构成,包括 ...
Android框架式编程之RxJava（一）：HelloWorld
Hello World 源码: import android.graphics.Bitmap; import android.graphics.BitmapFactory; import androi ...
Jquery | 基础 | 事件的链式写法
$(".title").click(function () { $(this).addClass("curcol").next(".content&q ...
Android框架式编程之LiveData
一.LiveData 介绍 LiveData是 Google 推荐的 Android 架构组件之一,是一个基于观察者模式的数据容器,但与一般的被观察者不同的是,它是有生命周期感知功能,解决了Andro ...
应聘复习基础笔记1：网络编程之TCP与UDP的优缺点，TCP三次握手、四次挥手、传输窗口控制、存在问题
重要性:必考一.TCP与UDP的优缺点 ①TCP---传输控制协议,提供的是面向连接.可靠的字节流服务.当客户和服务器彼此交换数据前,必须先在双方之间建立一个TCP连接,之后才能传输数据.TCP提供 ...
Android框架式编程之BufferKnife
配置 compile 'com.jakewharton:butterknife:(insert latest version)' annotationProcessor 'com.jakewharto ...
Android框架式编程之Room
Room是Google官方出品的ORM(Object-relational mapping) 框架.当前我们也知道当前还有很多的ORM框架,例如GreenDao.OrmLite.Litepal等.目前 ...
Android框架式编程之Retrofit
一.Retrofit 简介 Retrofit 官网地址: https://github.com/square/retrofit Retrofit(即Retrofit,目前最新版本为2.6.0版本),是 ...
Android框架式编程之MVP架构
MVP(Model-View-Presenter)模式.是将APP的结构分为三层:View - Presenter - Model. View 1. 提供UI交互 2. 在presenter的控制下修 ...

随机推荐

idea java方法中传多个参数对象的复制粘贴快速处理方法
比如像这种的传多个参数对象,我是直接复制过来,然后把第一个字母改成大写,然后后面的实例对象敲一个第一个字符的小写,回车就直接出来了在写调用参数的地方,ctrl+p 调出提示,然后按下提示里的实例的第 ...
python实现并发爬虫
在进行单个爬虫抓取的时候,我们不可能按照一次抓取一个url的方式进行网页抓取,这样效率低,也浪费了cpu的资源.目前python上面进行并发抓取的实现方式主要有以下几种:进程,线程,协程.进程不在的讨 ...
基于spring的redisTemplate的缓存工具类
pom.xml文件添加 <dependency> <groupId>org.spr ...
Java设计模式之适配器设计模式(项目升级案例)
今天是我学习到Java设计模式中的第三个设计模式了,但是天气又开始变得狂热起来,对于我这个凉爽惯了的青藏人来说,又是非常闹心的一件事儿,好了不管怎么样,目标还是目标(争取把23种Java设计模式接触一 ...
前端项目模块化的实践2：使用 Webpack 打包基础设施代码
以下是关于前端项目模块化的实践,包含以下内容: 搭建 NPM 私有仓库管理源码及依赖: 使用 Webpack 打包基础设施代码: 使用 TypeScript 编写可靠类库使用 TypeScript ...
Js_闭包跟作用域
作用域的嵌套将形成作用域链,函数的嵌套将形成闭包.闭包与作用域链是 JavaScript 区别于其它语言的重要特性之一. 作用域 JavaScript 中有两种作用域:函数作用域和全局作用域. 在一个 ...
openstack horizon 开发第二天
依照上次的简单的仪表盘添加动作额外添加或修改的文件mydashboard/├── mypanel│ ├── forms.py│ ├── tables.py│ ├── templates│ ...
技术进阶：Kubernetes高级架构与应用状态部署
在了解Kubernetes应用状态部署前,我们先看看Kubernetes的高级架构,方便更好的理解Kubernetes的状态. Kubernetes 的高级架构包括应用程序部署模型,服务发现和负载均 ...
[文章存档]Azure上部署的java app在向第三方服务传送中文时出现乱码
https://docs.azure.cn/zh-cn/articles/azure-operations-guide/app-service-web/aog-app-service-web-java ...
springboot+dubbo+zookeeper微服务实践demo
微服务化越来越火,实际上是应互联网时代而生的,微服务化带来的不仅是性能上的提升,更带来了研发组织的更加便利,协作更加轻松,团队效能更高. 当然不能为了技术而技术,我们需要切合实际的对业务进行划分,降低 ...

Hadoop基础-Map端链式编程之MapReduce统计TopN示例

Hadoop基础-Map端链式编程之MapReduce统计TopN示例的更多相关文章

随机推荐

热门专题