一、背景

1.1 流程

　　实现排序，分组拍上一篇通过Partitioner实现了。

　　实现接口，自动产生接口方法，写属性，产生getter和setter，序列化和反序列化属性，写比较方法，重写toString，为了方便复制写够着方法，不过重写够着方法map里需要不停地new，发现LongWritable有set方法，text也有，可以用，产生默认够着方法。

	public void set(String account,double income,double expense,double surplus) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income-expense;

	}

1.2 数据集

为了和上一篇保在知识上持递进，数据及换了，名字没变。

　　下面是输出结果，其实mr也会自动排序，不过string按字典序排序了。

二、理论知识

　　字符串拼接，记得以前自己写过，现在拿出来看看，http://www.cnblogs.com/hxsyl/archive/2012/10/18/2729112.html

　　简单总结扩展如下：String是final的，不能改变也不能继承，因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String 对象，然后将指针指向新的 String 对象，所以经常改变内容的字符串最好不要用 String ，因为每次生成对象都会对系统性能产生影响，特别当内存中无引用对象多了以后， JVM 的 GC 就会开始工作，那速度是一定会相当慢的。

　　如果for循环1w次，这句 string += "hello";的过程相当于将原有的string变量指向的对象内容取出与"hello"作字符串相加操作再存进另一个新的String对象当中，再让string变量指向新生成的对象。反编译出的字节码文件可以很清楚地看出，每次循环会new出一个StringBuilder对象，然后进行append操作，最后通过toString方法返回String对象。也就是说这个循环执行完毕new出了10000个对象，试想一下，如果这些对象没有被回收，内存浪费不说，有可能重复使用赵成系统卡死。从上面还可以看出：string+="hello"的操作事实上会自动被JVM优化成：

　　StringBuilder str = new StringBuilder(string);

　　str.append("hello");

　　str.toString();

　　如果直接for循环里StringBuilder 的话会只是new一次。效率高。

　　而StringBuffer是线程安全的，多了synchronized关键字，也就是在多线程下会顺序读取换冲刺。

　参考了这个http://blog.csdn.net/loveyaozu/article/details/47037957

三、实体类

　　收入相同的话按消费从低到高，否则收入从高到低。

package cn.app.hadoop.mr.sort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.math.BigDecimal;

import org.apache.hadoop.io.WritableComparable;

import org.apache.jasper.tagplugins.jstl.core.Out;

//Writable是序列化接口

//泛型是InfoBean，就像比较学生信息一样，成绩，性别等 ，封装在了一个bean里

//不过发现WritableComparable  有了序列化和反序列化

public class InfoBean implements WritableComparable<InfoBean>{

	private String account;

	//金钱类都需要BigDecimal，double顺势精度,不过不知道下边序列化咋写类型，所以先用double，估计writeUTF可以

	private double income;

	private double expense;

	private double surplus;

	public String getAccount() {

		return account;

	}

	public void setAccount(String account) {

		this.account = account;

	}

	public double getIncome() {

		return income;

	}

	public void setIncome(double income) {

		this.income = income;

	}

	public double getExpense() {

		return expense;

	}

	public void setExpense(double expense) {

		this.expense = expense;

	}

	public double getSurplus() {

		return surplus;

	}

	public void setSurplus(double surplus) {

		this.surplus = surplus;

	}

	public void readFields(DataInput in) throws IOException {

		// TODO Auto-generated method stub

		this.account = in.readUTF();

		this.income = in.readDouble();

		this.expense = in.readDouble();

		this.surplus = in.readDouble();

	}

	public void write(DataOutput out) throws IOException {

		// TODO Auto-generated method stub

		out.writeUTF(account);

		out.writeDouble(income);

		out.writeDouble(expense);

		out.writeDouble(surplus);

	}

	public void set(String account,double income,double expense) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income - expense;

	}

	public InfoBean() {

		super();

		// TODO Auto-generated constructor stub

	}

	@Override

	public String toString() {

		return "InfoBean [income=" + income + ", expense=" + expense

				+ ", surplus=" + surplus + "]";

	}

	public int compareTo(InfoBean o) {

		// TODO Auto-generated method stub

		if(this.income == o.getIncome()) {

			return this.expense>o.getExpense()?1:-1;

		}else {

			return this.income>o.getIncome()?-1:1;

		}

	}

}

四、第一种实现

4.1 Mapper

//第一个处理文本的话一般是LongWritable  或者object

//一行一行的文本是text

//输出的key的手机号 定位Text

//结果是DataBean  一定要实现Writable接口

public class InfoSortMapper extends Mapper<LongWritable, Text, Text, InfoBean> {

	private InfoBean v = new InfoBean();

	private Text k = new Text();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account);

		v.set(account, in, out);

		context.write(k, v);

	}

　　4.2 Reducer

public class InfoSortReducer extends Reducer<Text, InfoBean, Text, InfoBean> {

	//k就是key，不需要

	private InfoBean v = new InfoBean();

	public void reduce(Text key, Iterable<InfoBean> value, Context context)

			throws IOException, InterruptedException {

		// process values

		double incomeSum = 0;

		double expenseSum = 0;

		for (InfoBean o : value) {

			incomeSum += o.getIncome();

			expenseSum += o.getExpense();

		}

		v.set(key.toString(), incomeSum, expenseSum);

		//databean会自动调用toString

		context.write(key,v);

	}

}

五、第二种实现

5.1 Mapper

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

　　5.2 Reducer

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

六、结束语

　　如果k2 v2和k4 v4，也就是mapp的输出和reducer的输出类型不一致的话必须在Main里也设置Mapper的输出,上面的第二种就是。

job.setMapOutputKeyClass(InfoBean.class);

		job.setMapOutputValueClass(NullWritable.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(InfoBean.class);

　　否则java里不报错，加上log4j后看到类型不匹配。

MapReduce实现手机上网日志分析（排序）的更多相关文章

MapReduce实现手机上网日志分析（分区）
一.问题背景实际业务的需要,比如以移动为例,河南的用户去了北京上网,那么他的上网信息默认保存在了北京的基站,那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息,否则只能 ...
MapReduce实现手机上网流量分析（业务逻辑）
一.问题背景现在的移动刚一通话就可以在网站上看自己的通话记录,以前是本月只能看上一个月.不过流量仍然是只能看上一月的. 目的就是找到用户在一段时间内的上网流量. 本文并没有对时间分组.下一节进行分区 ...
使用Pig对手机上网日志进行分析
在安装成功Pig的基础上.本文将使用Pig对手机上网日志进行分析,详细过程例如以下: 写在前面: 手机上网日志文件phone_log.txt.文件内容及字段说明部分截图例如以下需求分析显示每一 ...
Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...
Hadoop学习笔记—5.自定义类型处理手机上网日志
转载自http://www.cnblogs.com/edisonchou/p/4288737.html Hadoop学习笔记—5.自定义类型处理手机上网日志一.测试数据:手机上网日志 1.1 关于这 ...
Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...
Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
ELK日志分析平台环境部署（yum安装）
前言:通常体质被分散存储在不同的设备上面,在庞大的服务器集群中,我们需要集中化的管理,日志的统计和检索,一般我们使用grep和awk,wc等linux命令虽然能够实现检索和统计,但是呢,对于要求更高的 ...
Hadoop学习笔记—20.网站日志分析项目案例
1.1 项目来源本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛本次实践的目的就在于 ...

随机推荐

【scikit-learn】scikit-learn的线性回归模型
内容概要怎样使用pandas读入数据怎样使用seaborn进行数据的可视化 scikit-learn的线性回归模型和用法线性回归模型的评估測度特征选择的方法作为有监督学习,分类问题是预 ...
[LoadRunner]LR11安装或破解时报错的解决方法
背景:在性能测试项目上,需要安装到LR11进行性能测试,而在安装时会出现安装运行环境失败,安装文件缺失等问题.现总结了上述问题,并给出以下解决方法: 问题1:安装LoadRunner时出现“计算机缺少 ...
CLR简介（一）
什么是通用语言运行时(CLR),简单来讲: CLR是一个支持多种编程语言及多语言互操作,完整的高级虚拟机. 有点拗口,而且不是很有启发性,但上面的文字是将又大又复杂的CLR的功能归类以便容易理解的第一 ...
C#委托的介绍(delegate、Action、Func、predicate) --转载
来源:http://www.cnblogs.com/akwwl/p/3232679.html 委托是一个类,它定义了方法的类型,使得可以将方法当作另一个方法的参数来进行传递.事件是一种特殊的委托. 1 ...
【hive】——Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...
Ubuntu 更新源失败[GPG error]
对于错误 GPG error: http://ppa.launchpad.net precise Release: The following signatures couldn't be verif ...
Entity Framework 中使用SQL Server全文索引（Full Text Search）
GitHub:https://github.com/fissoft/Fissoft.EntityFramework.Fts EntityFramework中原来使用全文索引有些麻烦,需要使用DbCon ...
Facebook不相信所谓的员工能力等级。《长效商业英雄》（《哈佛商业评论》2016年11期），4星。
老牌管理杂志.本期我给4星.以下是书中一些信息的摘抄: 1:爱因斯坦曾说:“任何傻瓜都能让事情更复杂,只有天才能让事情变简单.”单就这一点来看,乔布斯无疑是天才中的天才.#137 2:通过让苹果聚焦于 ...
用U盘安装Ubuntu系统
用U盘安装Ubuntu,需制作一个Ubuntu的U盘安装盘,最为方便和可靠的制作方法是在Linux系统下使用dd命令,具体如下, sudo dd if=ubuntu-14.04.4-server-am ...
理解ThreadLocal(之二)
想必很多朋友对ThreadLocal并不陌生,今天我们就来一起探讨下ThreadLocal的使用方法和实现原理.首先,本文先谈一下对ThreadLocal的理解,然后根据ThreadLocal类的源码 ...

MapReduce实现手机上网日志分析（排序）

一、背景

1.1 流程

1.2 数据集

二、理论知识

三、实体类

四、第一种实现

4.1 Mapper

4.2 Reducer

五、第二种实现

5.1 Mapper

5.2 Reducer

六、结束语

MapReduce实现手机上网日志分析（排序）的更多相关文章

随机推荐

热门专题

　　4.2 Reducer

　　5.2 Reducer