Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求

统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。

流程剖析

阶段：map

读取一行数据，切分字段，

抽取手机号，上行流量，下行流量

context.write(手机号，bean)

阶段：reduce

汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean

context.write(手机号，新bean)；

代码实现

1.定义一个phonebean：

package com.Rz_Lee.hadoop.mr.flowsum;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

/**

 * Created by Rz_Lee on 2017/8/15.

 */

public class FlowBean implements Writable{

    private long upFlow;

    private long dFlow;

    private long sumFlow;

    //反序列化时，需要反射调用空参构造函数，所以要显示定义一个

    public FlowBean() {

    }

    public FlowBean(long upFlow, long dFlow) {

        this.upFlow = upFlow;

        this.dFlow = dFlow;

        this.sumFlow = dFlow+upFlow;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getdFlow() {

        return dFlow;

    }

    public void setdFlow(long dFlow) {

        this.dFlow = dFlow;

    }

    public long getSumFlow() {

        return sumFlow;

    }

    @Override

    public String toString() {

        return upFlow+"\t"+dFlow+"\t"+sumFlow;

    }

    /**

     * 序列化方法

     * @param dataOutput

     * @throws IOException

     */

    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeLong(upFlow);

        dataOutput.writeLong(dFlow);

        dataOutput.writeLong(sumFlow);

    }

    /**

     * 反序列化方法

     * 注意：反序列化的顺序和序列化的顺序一致

     * @param dataInput

     * @throws IOException

     */

    public void readFields(DataInput dataInput) throws IOException {

        upFlow = dataInput.readLong();

        dFlow = dataInput.readLong();

        sumFlow = dataInput.readLong();

    }

}

2.实现类：

package com.Rz_Lee.hadoop.mr.flowsum;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * Created by Rz_Lee on 2017/8/15.

 */

public class FlowCount {

    static class FlowCountMapper extends Mapper<LongWritable,Text,Text,FlowBean>{

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            //将一行内容转为String

            String line = value.toString();

            //切分字段

            String[] fields = line.split("\t");

            //取出手机号

            String phoneNbr = fields[1];

            //取出上行和下行流量

            Long upFlow =Long.parseLong(fields[fields.length-3]);

            Long dFlow =Long.parseLong(fields[fields.length-2]);

            context.write(new Text(phoneNbr),new FlowBean(upFlow,dFlow));

        }

    }

    static class FlowCountReducer extends Reducer<Text,FlowBean,Text,FlowBean>

    {

        //<135,bean1><135,bean2><135,bean3>

        @Override

        protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {

            long sum_upFlow = 0;

            long sum_dFlow = 0;

            //遍历所有Bean，将其中的上行流量，下行流量分别累加

            for(FlowBean bean:values){

                sum_upFlow+=bean.getUpFlow();

                sum_dFlow+=bean.getdFlow();

            }

            FlowBean resultBean = new FlowBean(sum_upFlow, sum_dFlow);

            context.write(key,resultBean);

        }

    }

    public static void main(String[] args) throws Exception{

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        /*conf.set("mapreduce.framework.name","yarn");

        conf.set("yarn.resourcemanager.hostname","srv01");*/

        /*job.setJar("/usr/hadoop/wc.jar");*/

        //指定本程序的jar包所在的本地路径

        job.setJarByClass(FlowCount.class);

        //指定本业务job使用的mapper/reducer业务类

        job.setMapperClass(FlowCountMapper.class);

        job.setReducerClass(FlowCountReducer.class);

        //指定mapper输出数据的KV类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(FlowBean.class);

        //指定最终输出的数据的KV类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBean.class);

        //指定job的输入原始文件所在目录

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        //指定job的输出结果所在目录

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行

        /*job.submit();*/

        boolean res = job.waitForCompletion(true);

        System.exit(res?0:1);

    }

}

3.数据来源phone.txt：

1363157985123	13726232222	50-FD-07-A4-72-B8:CMCC	120.196.100.82　　i.cnblogs.com		24  27	2586	24681	200

1363157995456	13826547777	5C-0E-88-C7-F2-E0:CMCC	10.197.40.4			4	0	364	0	200

1363157991789	13926438888	20-10-7A-28-CC-0A:CMCC	120.197.100.99			2	4	232	2151	200

1363154400101	13926259999	CC-0E-8B-8B-B1-50:CMCC	120.196.40.4			4	0	440	0	200

1363157993121	18211575555	94-17-AC-CD-E6-18:CMCC-EASY	120.196.100.99	www.bilibili.com	视频网站	20	15	8585	2106	200

4.把Flowcount项目导成jar包，连同数据来源一起上传到HDFS，运行 hadoop jar wordcount.jar 包.类名 /源文件路径 /输出数据文件夹

打开浏览器输入：yarn节点的IP:8088 ，在网页上可以看见整个Job的运行情况。

Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现的更多相关文章

Hadoop案例（九）流量汇总案例
流量汇总程序案例 1.自定义输出统计手机号耗费的总上行流量.下行流量.总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量.下行流量.总流量 2)数据准备 phone_date.txt - ...
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...
[转]Hadoop参数汇总
出自:https://segmentfault.com/a/1190000000709725 Hadoop参数大全主要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 ...
Hadoop参数汇总
linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 Linux的内核的IO ...
hadoop开发MapReduce程序
准备工作: 1.设置HADOOP_HOME,指向hadoop安装目录 2.在window下,需要把hadoop/bin那个目录替换下,在网上搜一个对应版本的 3.如果还报org.apache.hado ...
如何在Hadoop的MapReduce程序中处理JSON文件
简介: 最近在写MapReduce程序处理日志时,需要解析JSON配置文件,简化Java程序和处理逻辑.但是Hadoop本身似乎没有内置对JSON文件的解析功能,我们不得不求助于第三方JSON工具包. ...
MapReduce扩展：应用程序如何运行于Hadoop Yarn之上
1. 背景 “应用程序运行于Hadoop Yarn之上”的需求来源于微博运维数据平台中的调度系统,即调度系统中的任务需要运行于Hadoop Yarn之上.这里的应用程序可以简单理解为一个普通的进程 ...
用PHP编写Hadoop的MapReduce程序
用PHP编写Hadoop的MapReduce程序 Hadoop流虽然Hadoop是用Java写的,但是Hadoop提供了Hadoop流,Hadoop流提供一个API, 允许用户使用任何语言编 ...
Hadoop之MapReduce程序应用三
摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 ...

随机推荐

JAVA Eclipse 创建android xml看不到预览怎么办
电机安卓图标,设置为更低的API版本即可
mongodb: 安装建/删库，表
mongodb的安装下载mongodb www.mongodb.org 下载最新stable版解压文件 3.不用编译,解压之后本身就是编译后的二进制可执行文件解压之后,目录格式如下在bin目录 ...
强制重启Linux系统的几种方法
实际生产环境中某些情况下 Linux 服务器系统在出现致命错误需要远程进行重启,通过常规的 reboot.init 6 等方法无法正常重启(例如重启时卡在驱动程序里等情况),这时就需要通过下面介绍的几 ...
Command &Prompt Here
Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\Directory\shell\Command Prompt Here]@=" ...
hdu1316
链接:pid=1316" target="_blank">点击打开链接题意:问区间[a,b]中有多少斐波那契数代码: #include <iostream ...
以使用QSqlQuery向数据库中插入数据为例，做一个小结
背景: 最近在使用Qt+SQLite写一个本地数据库管理程序(使用者不懂SQL),在写向数据库中插入数据的相关的函数时,我遇到了几个问题(暂时就这些): 1.向指定字段插入指定数据时,读取到的数据都 ...
scrapy之Logging使用
#coding:utf-8 __author__ = 'similarface' ###################### ##Logging的使用 ###################### ...
linearLayout 和 relativeLayout的属性区别
LinearLayout和RelativeLayout 共有属性: java代码中通过btn1关联次控件 android:id="@+id/btn1" 控件宽度 android:l ...
idea 的IDE
idea 是与eclipse齐名的IDE(集成开发工具),以智能闻名,不过对于熟悉eclipse的的用户来说,初次接触idea有些让人搞不清方向,下面介绍一下简单的使用方式. 1.安装官网下载ul ...
javascript onclick中post提交
对post提交进行封装: function post(URL, PARAMS) { var temp = document.createElement("form"); temp. ...