hadoop2.2.0 MapReduce的序列化

package com.my.hadoop.mapreduce.dataformat;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import com.my.hadoop.common.Configs;

/**
* hadoop的序列化
* @author yao
*
*/
public class DataCount {

static class DTMap extends Mapper<LongWritable, Text, Text, DataBean>{
       DataBean dataBean = null;
       @Override
       public void map(LongWritable key, Text value, Context context) throws IOException ,InterruptedException {
           String[] fields = value.toString().split("\t");
           String telNo = fields[1];
           long upPayLoad = Long.parseLong(fields[8]);
           long downPayLoad = Long.parseLong(fields[9]);
           dataBean = new DataBean(telNo, upPayLoad, downPayLoad);
           context.write(new Text(telNo), dataBean);
       }
   }

   static class DTReduce extends Reducer<Text, DataBean, Text, DataBean>{
       @Override
       public void reduce(Text key, Iterable<DataBean> dataBeans, Context context) throws IOException ,InterruptedException {
           long upPayLoad = 0;
           long downPayLoad = 0;
           for (DataBean dataBean : dataBeans) {
               upPayLoad += dataBean.getUpPayLoad();
               downPayLoad += dataBean.getDownPayLoad();
           }
           DataBean dataBean = new DataBean("", upPayLoad, downPayLoad);
           context.write(key, dataBean);
       }
   }

   public static void main(String[] args) throws Exception {
       Configuration conf = Configs.getConfigInstance();

       String[] paths = new GenericOptionsParser(conf, args).getRemainingArgs();
       if (paths.length != 2) {
           System.err.println("Usage: " + DataCount.class.getName() + " <in> <out>");
           System.exit(2);
       }

       Job job = Job.getInstance(conf, DataCount.class.getSimpleName());
       job.setJarByClass(DataCount.class);                               //设置main函数所在的类

       FileInputFormat.setInputPaths(job, new Path(args[0]));
       job.setMapperClass(DTMap.class);
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(DataBean.class);

       job.setReducerClass(DTReduce.class);
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(DataBean.class);
       FileOutputFormat.setOutputPath(job, new Path(args[1]));

       System.exit(job.waitForCompletion(true) ? 0 : 1);               //等待MapReduce执行完成并打印作业进度详情

   }

}

/**
* 实现Writable接口，重写Write方法和readFields方法，严格按字段顺序进行写入写出
* @author yao
*
*/
class DataBean implements Writable {

private String telNo;
   private long upPayLoad;
   private long downPayLoad;
   private long totalPayLoad;

   public DataBean(){

   }

   public DataBean(String telNo, long upPayLoad, long downPayLoad) {
       super();
       this.telNo = telNo;
       this.upPayLoad = upPayLoad;
       this.downPayLoad = downPayLoad;
       this.totalPayLoad = upPayLoad + downPayLoad;
   }

@Override
   public void readFields(DataInput in) throws IOException {
       this.telNo = in.readUTF();
       this.upPayLoad = in.readLong();
       this.downPayLoad = in.readLong();
       this.totalPayLoad = in.readLong();
   }

@Override
   public void write(DataOutput out) throws IOException {
       out.writeUTF(telNo);
       out.writeLong(upPayLoad);
       out.writeLong(downPayLoad);
       out.writeLong(totalPayLoad);
   }

@Override
   public String toString() {
       return this.telNo+"\t"+this.upPayLoad+"\t"+this.downPayLoad+"\t"+this.totalPayLoad;
   }

public String getTelNo() {
return telNo;
}

public void setTelNo(String telNo) {
this.telNo = telNo;
}

public long getUpPayLoad() {
return upPayLoad;
}

public void setUpPayLoad(long upPayLoad) {
this.upPayLoad = upPayLoad;
}

public long getDownPayLoad() {
return downPayLoad;
}

public void setDownPayLoad(long downPayLoad) {
this.downPayLoad = downPayLoad;
}

public long getTotalPayLoad() {
return totalPayLoad;
}

public void setTotalPayLoad(long totalPayLoad) {
this.totalPayLoad = totalPayLoad;
}

}

hadoop2.2.0 MapReduce的序列化的更多相关文章

hadoop2.2.0 MapReduce求和并排序
javabean必须实现WritableComparable接口,并实现该接口的序列化,反序列话和比较方法 package com.my.hadoop.mapreduce.sort; import j ...
hadoop2.2.0 MapReduce分区
package com.my.hadoop.mapreduce.partition; import java.util.HashMap;import java.util.Map; import org ...
国内最全最详细的hadoop2.2.0集群的MapReduce的最简单配置
简介 hadoop2的中的MapReduce不再是hadoop1中的结构已经没有了JobTracker,而是分解成ResourceManager和ApplicationMaster.这次大变革被称为M ...
编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行
今天主要来说说怎么在Hadoop2.2.0分布式上面运行写好的 Mapreduce 程序. 可以在eclipse写好程序,export或用fatjar打包成jar文件. 先给出这个程序所依赖的Mave ...
Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量
1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能 //启动hdfs和yarn sbin/start-dfs.sh sbin/star ...
【hadoop2.6.0】用C++ 编写mapreduce
hadoop通过hadoop streaming 来实现用非Java语言写的mapreduce代码. 对于一个一点Java都不会的我来说,这真是个天大的好消息. 官网上hadoop streaming ...
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0 网上的 MapReduce WordCount 教程对于如何编译 WordCount.java 几乎是一笔带过… 而有写到的 ...
Hadoop-2.2.0 （传 hadoop-2.2.0.tar.gz）
配置hadoop 2.1 上传hadoop包 2.2 解压hadoop包首先在根目录下创建一个cloud目录 mkdir /cloud tar -zxvf hadoop-2.2.0.tar.gz - ...
Hadoop2.2.0安装过程记录
1 安装环境1.1 客户端1.2 服务端1.3 安装准备 2 操作系统安装2.1.1 BIOS打开虚拟化支持2.1.2 关闭防火墙2.1.3 安装 ...

随机推荐

ActiveX控件打包成Cab置于网页中自动下载安装（转载）
原文出自http://www.iteye.com/topic/110834 [背景] 做过ActiveX控件的朋友都知道,要想把自己做的ActiveX控件功能放在自己的网页上使用,那么用户在客户端就必 ...
Tomcat: IllegalStateException: No output folder --reference
Today, I started to create a couple of JSP pages for the server-side part of my MSc thesis project i ...
27个Jupyter Notebook使用技巧及快捷键(翻译版)
Jupyter Notebook Jupyter Notebook 以前被称为IPython notebook.Jupyter Notebook是一款能集各种分析包括代码.图片.注释.公式及自己画的图 ...
NYOJ-745蚂蚁的难题(二)
这道题和求字段和的要求就差一点,就是那个是一条链, 这个是个环,关于这么环,刚开始按照链那种方式推倒状态转移方程,但是没有写出来,后来看题解,才看到原来还是转化为普通的单链来做,好多题都是由不会的转化 ...
spring03autowire属性
1.创建需要的实体类 public class Student { //学生实体类 private String name; //姓名 private Integer age; //年龄 privat ...
HTML基本概念
什么是 HTML? HTML 是用来描述网页的一种语言. HTML 指的是超文本标记语言 (Hyper Text Markup Language) HTML 不是一种编程语言,而是一种标记语言 (ma ...
Linux命令行文本处理工具
关键字搜索: grep 关键字指定文件 -i 搜索时忽略大小写 -n 显示结果所在行 -v 显示不包含关键字的行基于列的文本处理: cut -d: -f1 /etc/passwd -d ...
Windows下查看端口被程序占用的方法
有时安装程序时,会出现XX端口被占用的情况,可以通过CMD命令查看什么程序占用 1. netstat -ano 查看相应端口对应程序的PID 例如: C:\>netstat -ano A ...
zepto源码研究 - ajax.js（$.ajax具体流程分析）
简要:$.ajax是zepto发送请求的核心方法,$.get,$.post,$.jsonp都是封装了$.ajax方法.$.ajax将jsonp与异步请求的代码格式统一起来,内部主要是先处理url,数据 ...
Linux下Fork与Exec使用
Linux下Fork与Exec使用一.引言对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执行一次却返回两个值.fork函数是Unix系统最杰出的成就之一, ...

hadoop2.2.0 MapReduce的序列化

hadoop2.2.0 MapReduce的序列化的更多相关文章

随机推荐

热门专题