Hadoop实战-MapReduce之分组(group-by)统计(七)

1、数据准备

使用MapReduce计算age.txt中年龄最大、最小、均值
name,min,max,count
Mike,35,20,1
Mike,5,15,2
Mike,20,13,1
Steven,40,20,10
Ken,28,68,1
Ken,14,198,10
Cindy,32,31,100

2、预期结果
Mike 5 20 4
Steven,40,20,10
Ken 14 198 11
Cindy,32,31,100

3、需要加入自定义输出类型MinMaxCountTuple

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class MinMaxCountTuple implements Writable {

	private int min;

	private int max;

	private int count;

	public int getMin() {

		return min;

	}

	public void setMin(int min) {

		this.min = min;

	}

	public int getMax() {

		return max;

	}

	public void setMax(int max) {

		this.max = max;

	}

	public int getCount() {

		return count;

	}

	public void setCount(int count) {

		this.count = count;

	}

	public void readFields(DataInput in) throws IOException {

		min = in.readInt();

		max = in.readInt();

		count = in.readInt();

	}

	public void write(DataOutput out) throws IOException {

		out.writeInt(min);

		out.writeInt(max);

		out.writeInt(count);

	}

	@Override

	public String toString() {

		return min + "\t" + max + "\t" + count;

	}

}

4、MapReduce编程

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Age {

	public static class AgeMap extends

			Mapper<Object, Text, Text, MinMaxCountTuple> {

		private Text userName = new Text();

		private MinMaxCountTuple outTuple = new MinMaxCountTuple();

		@Override

		public void map(Object key, Text value, Context context)

				throws IOException, InterruptedException {

			StringTokenizer itr = new StringTokenizer(value.toString());

			while (itr.hasMoreTokens()) {

				String content = itr.nextToken();

				String[] splits = content.split(",");

				String name = splits[0];

				int min = Integer.valueOf(splits[1]);

				int max = Integer.valueOf(splits[2]);

				int count = Integer.valueOf(splits[3]);

				outTuple.setMin(min);

				outTuple.setMax(max);

				outTuple.setCount(count);

				userName.set(name);

				context.write(userName, outTuple);

			}

		}

	}

	public static class AgeReduce extends

			Reducer<Text, MinMaxCountTuple, Text, MinMaxCountTuple> {

		private MinMaxCountTuple result = new MinMaxCountTuple();

		public void reduce(Text key, Iterable<MinMaxCountTuple> values,

				Context context) throws IOException, InterruptedException {

			int sum = 0;

			result.setMax(0);

			result.setMin(Integer.MAX_VALUE);

			for (MinMaxCountTuple tmp : values) {

				if (tmp.getMin() < result.getMin()) {

					result.setMin(tmp.getMin());

				}

				if (tmp.getMax() > result.getMax()) {

					result.setMax(tmp.getMax());

				}

				sum += tmp.getCount();

			}

			result.setCount(sum);

			context.write(key, result);

		}

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args)

				.getRemainingArgs();

		if (otherArgs.length != 2) {

			System.err.println("Usage: MinMaxCountDriver <in> <out>");

			System.exit(2);

		}

		Job job = new Job(conf, "StackOverflow Comment Date Min Max Count");

		job.setJarByClass(Age.class);

		job.setMapperClass(AgeMap.class);

		job.setCombinerClass(AgeReduce.class);

		job.setReducerClass(AgeReduce.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(MinMaxCountTuple.class);

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

		System.exit(job.waitForCompletion(true) ? 0 : 1);

	}

}

Hadoop实战-MapReduce之分组(group-by)统计(七)的更多相关文章

Hadoop实战-MapReduce之max、min、avg统计(六)
1.数据准备: Mike,35 Steven,40 Ken,28 Cindy,32 2.预期结果 Max 40 Min 28 Avg 33 3.MapReduce代码如下 import ja ...
Hadoop实战-MapReduce之倒排索引(八)
倒排索引 (就是key和Value对调的显示结果) 一.需求:下面是用户播放音乐记录,统计歌曲被哪些用户播放过 tom LittleApple jack YesterdayO ...
Hadoop实战-MapReduce之WordCount(五)
环境介绍: 主服务器ip:192.168.80.128(master) NameNode SecondaryNameNode ResourceManager 从服务器ip:192.168.80.1 ...
深入浅出Hadoop实战开发(HDFS实战图片、MapReduce、HBase实战微博、Hive应用)
Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程：MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程. “云计算分布式大数据Hadoop实战高手之路”之完整发布目录云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发 ...
Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别
简述问题“统计最新时刻处于某一状态的设备的数量” 1. 首先子查询结果,可以看到每个设备最新的状态信息 2.1 在子查询的基础上,对设备状态进行分组,进行统计每个状态的设备数量 2.1.1 可以看到处 ...
Hadoop实战课程
Hadoop生态系统配置Hadoop运行环境Hadoop系统架构HDFS分布式文件系统MapReduce分布式计算(MapReduce项目实战)使用脚本语言Pig(Pig项目实战)数据仓库工具Hive ...

随机推荐

【MFC】error RC2108: expected numerical dialog constant（转）
原文转自 http://blog.csdn.net/renyhui/article/details/23120469 [解决方案]在控件ID后面添加 "Static", SS_BI ...
转载 linux 僵尸进程，讲的很透彻
僵尸进程的产生和避免,以及wait,waitpid的使用在fork()/execve()过程中,假设子进程结束时父进程仍存在,而父进程fork()之前既没安装SIGCHLD信号处理函数调用waitp ...
天梯赛 - L2-002 链表去重
GG思密达,第二个测试点的三分怎么也拿不上,我还是比较熟悉指针,用指针来写~,写完去上概率论题目链接:https://www.patest.cn/contests/gplt/L2-002 #incl ...
babel ---- presets字段设定转码规则
presets字段设定转码规则,官方提供以下的规则集,你可以根据需要安装. # ES2015转码规则 $ npm install --save-dev babel-preset-es2015 # re ...
K&R——第五章指针与数组
#include <stdio.h> #define maxsize 5000 char buf[maxsize]; char *head = buf; char *new(int siz ...
Codeforces 471 D MUH and Cube Walls
题目大意 Description 给你一个字符集合,你从其中找出一些字符串出来. 希望你找出来的这些字符串的最长公共前缀*字符串的总个数最大化. Input 第一行给出数字N.N在[2,1000000 ...
Java中String/StringBuffer/StringBuilder区别（转）
1.三者在执行速度方面的比较:StringBuilder > StringBuffer > String 2.String <(StringBuffer,StringBuild ...
3.环境搭建-Hadoop（CDH）集群搭建
目录目录实验环境安装 Hadoop 配置文件在另外两台虚拟机上搭建hadoop 启动hdfs集群启动yarn集群本文主要是在上节CentOS集群基础上搭建Hadoop集群. 实验环境 Ha ...
高仿QQ6.0側滑菜单之滑动优化（二）
好了,昨天已经实现了高仿QQ6.0的側滑大致框架.如有兴趣.能够去看下仿QQ6.0側滑之ViewDragHelper的使用(一) 可是之前的实现.仅仅是简单的能够显示和隐藏左側的菜单,可是特别生硬,并 ...
醒醒吧少年，只用Cucumber不能帮助你BDD
转载:http://insights.thoughtworkers.org/bdd/ 引言在Ruby社区中,测试和BDD一直是被热议的话题,不管是单元测试.集成测试还是功能测试,你总能找到能帮助你的 ...

Hadoop实战-MapReduce之分组(group-by)统计(七)

Hadoop实战-MapReduce之分组(group-by)统计(七)的更多相关文章

随机推荐

热门专题