MapRecude

任务：分析通话记录，查处每个手机号码有哪些打过来的号码

13510921776 10086

13710148751 10086

13914248991 10086

13510921776 13710148751

13510921776 13710148751

13914248991 13710148751

13710148751 13510921776

要求输出结果：

10086    13510921776|13710148751|13914248991|

13510921776    13710148751|

13710148751    13510921776|13510921776|13914248991|

代码：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class PhoneAnalyzer extends Configured implements Tool {

    enum Counter {

        LINESKIP; // 出错的行

    }

    @Override

    public int run(String[] args) throws Exception {

        Configuration conf = getConf();

        Job job = new Job(conf, "phoneAnalyzer"); // 任务名

        job.setJarByClass(PhoneAnalyzer.class); // 指定Class

        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/user/root/in")); // 输入路径

        FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/root/out")); // 输出路径

        job.setMapperClass(Map.class); // 调用Map类作为Mapper任务代码

        job.setReducerClass(Reduce.class); // 调用Reduce类作为Reducer任务代码

        job.setOutputFormatClass(TextOutputFormat.class);

        job.setOutputKeyClass(Text.class); // 指定输出的Key的格式(KEYOUT)

        job.setOutputValueClass(Text.class); // 指定输出的Value的格式(VALUEOUT)

        job.waitForCompletion(true);

        return job.isSuccessful() ? 0 : 1;

    }

    public static class Map extends

            Mapper<LongWritable, Text, Text, Text> {    //<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            try {

                // key - 行号 value - 一行的文本

                String line = value.toString();    //13510000000 10086(13510000000拨打10086)

                // 数据处理

                String[] lineSplit = line.split(" ");

                String phone1 = lineSplit[0];

                String phone2 = lineSplit[1];

                context.write(new Text(phone2), new Text(phone1));    // 输出 key \t value

            } catch (Exception e) {

                context.getCounter(Counter.LINESKIP).increment(1); // 出错令计数器+1

            }

        }

    }

    public static class Reduce extends Reducer<Text, Text, Text, Text> {    //<KEYIN（必须与Mapper的KEYOUT相同）,VALUEIN（必须与Mapper的VALUEOUT相同）,KEYOUT,VALUEOUT>

        @Override

        protected void reduce(Text key, Iterable<Text> values,

                Context context)

                throws IOException, InterruptedException {

            String valueStr;

            String out = "";

            for(Text value:values){

                valueStr = value.toString() + "|";

                out += valueStr;

            }

            // 输出 key \t value（如果我们的输出结果不是key \t value格式，那么我们的key可定义为NullWritable，而value使用key与value的组合。）

            context.write(key, new Text(out));

        }

    }

    public static void main(String[] args) throws Exception {

        //运行任务

        int res = ToolRunner.run(new Configuration(), new PhoneAnalyzer(), args);

        System.exit(res);

    }

}

MapRecude的更多相关文章

Hadoop基础教程之重新认识Hadoop
之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hive SQL运行状态监控（HiveSQLMonitor）
引言目前数据平台使用Hadoop构建,为了方便数据分析师的工作,使用Hive对Hadoop MapReduce任务进行封装,我们面对的不再是一个个的MR任务,而是一条条的SQL语句.数据平台内部 ...
YARN
YARN 介绍 Apache Hadoop YARN作为hadoop的子项目加入到Hadoop Common (core libraries), Hadoop HDFS (storage) and H ...
Hadoop学习（二） Hadoop配置文件参数详解
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4. etc/hadoop/core-site.xm ...
1.hive介绍及安装配置
1.Hive介绍数据库OLTP 在线事务处理数据仓库OLAP 在线分析处理延迟高类sql方式(HQL) 使用sql方式,用来读写,管理位于分布式存储系统上的大型数据集的数据仓库技术 hive是 ...
mapreduce程序调用各个类的功能
转自:http://www.cnblogs.com/z1987/p/5052409.html 1.map类 map类继承了库类中的Mapper,即Mapper<KEYIN, VALUEIN, K ...
win32下开发hadoop
转载自:http://my.oschina.net/muou/blog/408543[木偶:Windows下使用Hadoop2.6.0-eclipse-plugin插件] 对于一些细节地 ...
Hadoop Intro - Configure
Hadoop学习(二) Hadoop配置文件参数详解 Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2 ...

随机推荐

rabbitMQ之安装和配置(一)
前言 erlang是一门面向并发的编程语言,流行的消息队列rabbitMQ是基于erlang环境运行的: 下载安装erlang语言环境源码安装 # 从官网下载,在任何目录下,使用root权限 wge ...
android.animation(4) - ObjectAnimator的ofInt(), ofFloat()(转)
一.概述 1.引入上几篇给大家讲了ValueAnimator,但ValueAnimator有个缺点,就是只能对数值对动画计算.我们要想对哪个控件操作,需要监听动画过程,在监听中对控件操作.这样使用起 ...
iOS开发之使用AFN上传图片
//1.创建管理者对象 AFHTTPSessionManager *manager = [AFHTTPSessionManager manager]; manager.responseSerializ ...
《Google软件测试之道》- Google软件测试介绍
<Google软件测试之道>- Google软件测试介绍 2015-05-21 目录 1 质量与测试 2 角色 3 组织结构 4 爬.走.跑 5 测试类型相关链接与Micro ...
FreeRTOS 中断优先级配置（重要）
以下转载自安富莱电子: http://forum.armfly.com/forum.php NVIC 的全称是 Nested vectored interrupt controller,即嵌套向量中断 ...
SSL的单向认证和双向认证
原文地址:http://alvinhu.com/blog/2013/06/20/one-way-and-two-way-ssl-authentication/?utm_source=tuicool&a ...
RDD缓存学习
首先实现rdd缓存准备了500M的数据 10份,每份 100万条,存在hdfs 中通过sc.textFile方法读取 val rdd1 = sc.textFile("hdfs://mini ...
转：linux添加用户
功能说明:建立用户帐号. 语法:useradd [-mMnr][-c <备注>][-d <登入目录>][-e <有效期限>][-f <缓冲天数>][- ...
Unix系统编程（）进程和程序
进程(process)是一个可执行程序(program)的实例. 程序是包含了一系列信息的文件,这些信息描述了如何在运行时创建一个进程,所包括的内容如下所示. 二进制格式标识:每个程序文件都包含用于描 ...
C语言 · 最大乘积
算法提高最大乘积时间限制:1.0s 内存限制:512.0MB 问题描述对于n个数,从中取出m个数,如何取使得这m个数的乘积最大呢? 输入格式第一行一个数表示数据组数每组 ...

MapRecude

MapRecude的更多相关文章

随机推荐

热门专题