[Hadoop]-从数据去重认识MapReduce

　　这学期刚好开了一门大数据的课，就是完完全全简简单单的介绍的那种，然后就接触到这里面最被人熟知的Hadoop了。看了官网的教程【吐槽一下，果然英语还是很重要！】，嗯啊，一知半解地搭建了本地和伪分布式的，然后是在没弄懂，求助了Google，搞来了一台机子，嗯，搭了个分布式的。其实是作业要求啦，觉得自己平时用单机的完全够了啦~

　　然后被要求去做个WordCount和数据去重的小例子，嗯啊，我就抱着半桶水的Java知识就出发走向“大数据“【其实很小】了。

　　立马求助官网【官网就是好，虽然看的慢，英语技术两不误！】，看了给出来的WordCount的例子，自己就写了一下数据去重的小例子，还好成功了，顺便对MapReduce了解了更多。下面说一下自己的认识和实现的思路。

　　首先整个的流程大致是这样的

　　1.输入数据InputData在被Map()处理之前会先由InputFormat调用getRecordReader()生成RecordReader，RecordReader再调用creatKey()和creatValue()生成可供Map使用的<key,value>对。其中有很多格式可继承于InputFormat，如我们最常用TextInputFor就是继承于FileInputFormat，将每一行数据都生成一个记录。

　　2.到Map呢就是发挥数据价值的时候了。想想这些数据都能拿来干嘛，想干嘛，再coding你想要做的一切一切吧。

　　3.Map输出的<key,value>对在被送到Reduce之前呢，会被先送到Shuffle处理一下成为<key,value-list>的样子，Reduce最喜欢这样的了。怎么变成这样呢？嗯，就是将相同的Key数据合并在一起了，还可以指定Job.setCombinerClass(class)来指定组合的方式。还有乱糟糟的Reduce也是不喜欢的，所以在它们组合之后还要再sort一下才行，如果遇到等值的数据呢，你又想自己来定怎么排序，那就指定Job.setGroupingComparaterClass(class)来‘二次排序’吧。

　　4.又是一个发挥想象力的过程了。也是要好好想想Reduce能帮你干什么呢，如果觉得没必要的话，我们也可以不指定Reduce的，让Map处理后的数据就直接输出好了。在Map和Reduce阶段都可以借助Counter来获得一些统计信息哦。

　　5.快到尾声了，记得每一种InputFormat都有一种OutputFormat和它对应的，最常用的还是Text类型的。

　　6.上面我们提到了Job这个东西，其实一个Job可以理解分为Map和Reduce两个过程。所以我们既可以定义Map和Reduce，也是给Job设定各种各样的配置。最简单的设置会在后面程序的注释里给出。

　　数据去重实现的思路：

　　根据上面的流程分析，既然数据是一行一行split之后再传进去Map的，而Map的输出结果是会经过Shuffle合并相同key之后再给Reduce的，那我们将Map输入的value变成Map输出的key就ok了，这里就不用管输出的value-list是什么东西了，重复的就combine了，达到需要。

　　这是代码的具体实现：

/*

    运行环境

    CentOS7

    OpenJDK-1.7.0.91

    Hadoop2.7.1

    ！单机节点测试！

*/

//导入所需的包

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Single

{

    //map将输入中的value复制到输出数据的key上，并直接输出

    /*

        四个参数的意思分别是:

        Object:输入到Map中的key的类型

        Text:输入到Map中的value的类型

        Text：输出到Reduce中的key的类型

        Text：输出到Reduce中的value的类型

    */

    public static class Map extends Mapper<Object, Text, Text, Text>

    {

        //从输入中得到的每行的数据的类型

        private static Text line = new Text();

        //实现map函数

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException

        {

            //获取并输出每一次的处理过程

            line = value;

            System.out.println("The process of the Map:" + key);

            context.write(line, new Text(""));

        }

    }

    //reduce将输入中的key复制到输出数据的key上，并直接输出

    public static class Reduce extends Reducer<Text, Text, Text, Text>

    {

        //实现reduce函数

        public void reduce(Text key, Iterable<Text> values, Context context)

        throws IOException, InterruptedException

        {

            //获取并输出每一次的处理过程

            System.out.println("The process of the Reduce:" + key);

            context.write(key, new Text(""));

        }

    }

    public static void main(String[] args) throws Exception

    {

        //设置配置类

        Configuration conf = new Configuration();

        //是从命令行里获取输入数据和输出数据的路径，所以这里要获取和判断一下

        String[] pathArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        if(pathArgs.length != 2)

        {

            System.err.println("Please set the path of <InputData> & <OutputData> in the command!");

            System.exit(2);

        }

        //Job job = new Job(conf, "Date-Single");

        //照着葫芦画不出来，就Google一下解决方法

        Job job = Job.getInstance();

        job.setJobName("single");

        job.setJarByClass(Single.class);

        //设置Map、Combine和Reduce处理类

        job.setMapperClass(Map.class);

        job.setCombinerClass(Reduce.class);

        job.setReducerClass(Reduce.class);

        //设置输出类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        //设置输入和输出目录

        FileInputFormat.addInputPath(job, new Path(pathArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(pathArgs[1]));

        //这里是根据是否等待job完成之后再返回结果并退出程序

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

　　后记：

　　在这个学习过程中，很多东西都是”不求甚解“，对于它们只有一些很浅显的理解，如有错误之处，劳烦告知，谢谢。

　　本文由AnnsShadoW发表于：http://www.cnblogs.com/annsshadow/p/5006317.html

[Hadoop]-从数据去重认识MapReduce的更多相关文章

hadoop mapreduce实现数据去重
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容输出 value--空. reduce 会自动统计所有的key,我们让reduce输出key-> ...
hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
Hadoop 数据去重
数据去重这个实例主要是为了读者掌握并利用并行化思想对数据进行有意义的筛选.统计大数据集上的数据种类个数.从网站日志中计算访问等这些看似庞杂的任务都会涉及数据去重.下面就进入这个实例的MapReduce ...
MapReduce实例(数据去重)
数据去重: 原理(理解):Mapreduce程序首先应该确认<k3,v3>,根据<k3,v3>确定<k2,v2>,原始数据中出现次数超过一次的数据在输出文件中只出现 ...
利用MapReduce实现数据去重
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选. 统计大数据集上的数据种类个数.从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重. 示例文件内容: 此处应有示例文件设计思路数据 ...
Hadoop大数据平台入门——HDFS和MapReduce
随着硬件水平的不断提高,需要处理数据的大小也越来越大.大家都知道,现在大数据有多火爆,都认为21世纪是大数据的世纪.当然我也想打上时代的便车.所以今天来学习一下大数据存储和处理. 随着数据的不断变大, ...
大数据学习笔记之Hadoop（三）：MapReduce&YARN
文章目录一 MapReduce概念 1.1 为什么要MapReduce 1.2 MapReduce核心思想 1.3 MapReduce进程 1.4 MapReduce编程规范(八股文) 1.5 Ma ...
map/reduce实现数据去重
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.co ...
大数据实时计算工程师/Hadoop工程师/数据分析师职业路线图
http://edu.51cto.com/roadmap/view/id-29.html http://my.oschina.net/infiniteSpace/blog/308401 大数据实时计算 ...

随机推荐

MVVM下listbox默认显示最后一行
原文地址:http://stackoverflow.com/questions/16866309/listbox-scroll-into-view-with-mvvm public class Scr ...
从java文件和CS文件里查询方法使用次数工具
前几天,领导让我找一下老系统(Java)里getRemoteUser方法都哪个文件用了,package是什么,方法被调用了多少次,当时因为着急,所以,直接人工找的,但是以后要是再出现,人工找就太讨厌了 ...
angular2系列教程（五）Structural directives、再谈组件生命周期
今天,我们要讲的是structural directives和组件生命周期这两个知识点.structural directives顾名思义就是改变dom结构的指令.著名的内建结构指令有 ngIf, n ...
计算机程序的思维逻辑 (39) - 剖析LinkedList
上节我们介绍了ArrayList,ArrayList随机访问效率很高,但插入和删除性能比较低,我们提到了同样实现了List接口的LinkedList,它的特点与ArrayList几乎正好相反,本节我们 ...
用SignalR 2.0开发客服系统[系列5:使用SignalR的中文简体语言包和其他技术点]
前言交流群:195866844 目录: 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 用SignalR 2.0开发客服系统[系列2:实现聊天室] 用SignalR 2.0开发客服系统 ...
从三栏自适应宽度布局到css布局的讨论
如何实现一个三栏自适应布局,左右各100px,中间随着浏览器宽度自适应? 第一个想到的是使用table布局,设置table的宽度为100%,三个td,第1个和第3个固定宽度为100px,那么中间那个就 ...
iis7.0与asp.net的运行原理
IIS7.0 IIS7.0主要引入了WAS(Windows Process Activation,不同于6.0中的Web Admin Service),分担了原来w3svc的部分功能,同时为IIS7. ...
C# base 64图片编码解码
使用WinForm实现了图片base64编码解码的效果图: 示例base 64编码字符串: /9j/4AAQSkZJRgABAQEAYABgAAD/2wBDAAgGBgcGBQgHBwcJCQgKD ...
C# WinForm使用乐器数字接口
继续,前面已经实现了C#调用Windows API实现了弹出对话框功能.使用了User32.dll文件,主要代码如下: [DllImport("User32.dll")]publi ...
Asp.Net MVC 从数据库生成代码（包括页面）
项目需要,数据库已经设计完成,需要生成相关的数据访问代码和页面. 参考:http://www.tracefact.net/asp-net/aspnetmvc-model-part1.aspx http ...

[Hadoop]-从数据去重认识MapReduce

[Hadoop]-从数据去重认识MapReduce的更多相关文章

随机推荐

热门专题