MapReduce基础

这篇文章翻译自Yahoo的Hadoop教程，很久之前就看过了，感觉还不错。最近想总结一下以前学的东西，看到现在关于Hadoop的中文资料还比较少，就有了把它翻译出来的想法，希望能帮助到初学者。这只是Yahoo的Hadoop教程中很小的一部分，我下去还会选一些来翻译，一般来说只翻译讲原理的，操作类的就不翻译了。水平有限，不妥之处，请指正（感觉翻译过来后，读起来倒是没英文的顺畅：）。废话说完，正文开始：

函数式编程概念
　　MapReduce程序是设计用来并行计算大规模海量数据的，这需要把工作流分划到大量的机器上去，如果组件(component)之间可以任意的共享数据，那这个模型就没法扩展到大规模集群上去了（数百或数千个节点），用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。
　　实际上，所有在MapReduce上的数据元素都是不可变的，这就意味着它们不能够被更新。如果在一个mapping任务中你改变了一个输入键值对，它并不会反馈到输入文件；节点间的通信只在产生新的输出键值对((key,value)pairs)时发生，Hadoop系统会把这些输出传到下一个执行阶段。

列表处理（List Processing）
　　从概念上讲，MapReduce程序转变输入数据元素列表成输出数据元素列表。一个MapReduce程序会重复这个步骤两次，并用两个不同的术语描述：map和reduce，这些术语来自于列表处理语言，如：LISP，Scheme，或ML。

Mapping数据列表（Lists）
　　MapReduce程序的第一步叫做mapping，在这一步会有一些数据元素作为Mapper函数的输入数据，每次一个，Mapper会把每次map得到的结果单独的传到一个输出数据元素里。

图4.1 Mapping通过对输入数据列表中的每一个元素应用一个函数创建了一个新的输出数据列表
　　这里举一个map功能的例子：假设你有一个函数toUpper(str)，用来返回输入字符串的大写版本。你可以在map中使用这个函数把常规字符串列表转换成大写的字符串列表。注意，在这里我们并没有改变输入字符串：我们返回了一个新的字符串，它是新的输出列表的组成部分之一。

Reducing数据列表（Lists）
　　Reducing可以让你把数据聚集在一起。reducer函数接收来自输入列表的迭代器，它会把这些数据聚合在一起，然后返回一个输出值。

图4.2 通过列表迭代器对输入数据进行reducing操作来输出聚合结果。
　　Reducing一般用来生成”总结“数据，把大规模的数据转变成更小的总结数据。比如，"+"可以用来作一个reducing函数，去返回输入数据列表的值的总和。

把它们一起放在MapReduce中
　　Hadoop的MapReduce框架使用了上面的那些概念并用它们来处理大规模的数据信息。MapReduce程序有着两个组件：一个实现了mapper，另一个实现了reducer。上面描叙的Mapper和Reducer术语在Hadoop中有了更细微的扩展，但基本的概念是相同的。
　　键和值：在MapReduce中，没有一个值是单独的，每一个值都会有一个键与其关联，键标识相关的值。举个例子，从多辆车中读取到的时间编码车速表日志可以由车牌号码标识，就像下面一样：

AAA-123   65mph, 12:00pm

ZZZ-789   50mph, 12:02pm

AAA-123   40mph, 12:05pm

CCC-456   25mph, 12:15pm

...

　　mapping和reducing函数不是仅接收数值（Values），而是（键，值）对。这些函数的每一个输出都是一样的：都是一个键和一个值，它们将被送到数据流的下一个列表。
　　对于Mapper和Reducer是如何工作的，MapReduce没有像其它语言那样严格。在更正式的函数式mapping和reducing设置中，mapper针对每一个输入元素都要生成一个输出元素，reducer针对每一个输入列表都要生成一个输出元素。但在MapReduce中，每一个阶段都可以生成任意的数值；mapper可能把一个输入map为0个，1个或100个输出。reducer可能计算超过一个的输入列表并生成一个或多个不同的输出。

　　根据键划分reduce空间：reducing函数的作用是把大的数值列表转变为一个（或几个）输出数值。在MapReduce中，所有的输出数值一般不会被reduce在一起。有着相同键的所有数值会被一起送到一个reducer里。作用在有着不同键关联的数值列表上的reduce操作之间是独立执行的。

图4.3 不同颜色代表不同的键，有着相同键的数值都被传到同一个reduce任务里。

应用例子：词频统计（Word Count）
　　写一个简单的MapReduce程序就可以用来统计不同的词在一个文件集中出现的次数。比如，我们有这样的文件：
　　foo.txt: Sweet, this is the foo file
　　bar.txt: This is the bar file
　　我们期望输出会是这样子：

sweet 1
this 2
is 2
the 2
foo 1
bar 1
file 2

当然没问题，我们可以写一个MapReduce程序来计算得到这个输出。高层结构看起来会是这样子：

mapper (filename, file-contents):
for each word in file-contents:
emit (word, 1)

reducer (word, values):
sum = 0
for each value in values:
sum = sum + value
emit (word, sum)

列表4.1 MapReduce词频统计伪代码

　　若干个mapper函数的实例会被创建在我们的集群的不同机器上，每个实例接收一个不同的输入文件（这里假设我们有很多个文件）。mappers输出的（word，1）键值对会被转到reducers那里去。若干个reducer方法实例也会在不同机子上被实例化。每个reducer负责处理关联到不同词的数值列表，数值列表中的值都是1；reducer把这些“1”值总和到一个关联了某个词的最终计数里。reducer然后生成最终的（word，count）输出，并把它写到一个输出文件里。
　　针对这个，我们可以在Hadoop MapReduce中写一个很相似的程序；它被包括在Hadoop分发包中，具体在src/examples/org/apache/hadoop/examples/WordCount.java。它的部分代码如下：

public static class MapClass extends MapReduceBase

    implements Mapper<LongWritable, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);

    private Text word = new Text();

    public void map(LongWritable key, Text value,

                    OutputCollector<Text, IntWritable> output,

                    Reporter reporter) throws IOException {

      String line = value.toString();

      StringTokenizer itr = new StringTokenizer(line);

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        output.collect(word, one);

      }

    }

  }

  /**

   * A reducer class that just emits the sum of the input values.

   */

  public static class Reduce extends MapReduceBase

    implements Reducer<Text, IntWritable, Text, IntWritable> {

    public void reduce(Text key, Iterator<IntWritable> values,

                       OutputCollector<Text, IntWritable> output,

                       Reporter reporter) throws IOException {

      int sum = 0;

      while (values.hasNext()) {

        sum += values.next().get();

      }

      output.collect(key, new IntWritable(sum));

    }

  }

列表4.2 MapReduce词频统计Java源码　　

　　实际Java实现与上述伪代码之间有一些微小的差别。首先，Java没有原生的emit关键字；你得到的OutputCollector输入对象会接收数值并emit到下一执行阶段。第二，Hadoop使用的默认输入格式把输入文件的每一行作为mapper单独的一个输入，不是一次整个文件。其中还使用了一个StringTokenizer对象用来把一行数据拆分为词组。这个操作没有对输入数据做任何规格化处理，所以“cat”，“Cat”，“cat,”都被认为是不同的字符串。注意，类变量word在每一次mapper输出另外一个（word，1）键值对时都被重复使用；这个举措节省了为每个输出创建一个新的变量的时间。output.collect()方法会拷贝它收到的数值作为输入数据，所以你可以覆盖你使用的变量。

驱动方法
　　Hadoop MapReduce程序的最后一个组件叫做Driver，它会初始化Job和指示Hadoop平台在输入文件集合上执行你的代码，并控制输出文件的放置地址。下面是Hadoop自带的Java实现例子里的一个整理版本driver的代码：

public void run(String inputPath, String outputPath) throws Exception {

    JobConf conf = new JobConf(WordCount.class);

    conf.setJobName("wordcount");

    // the keys are words (strings)

    conf.setOutputKeyClass(Text.class);

    // the values are counts (ints)

    conf.setOutputValueClass(IntWritable.class);

    conf.setMapperClass(MapClass.class);

    conf.setReducerClass(Reduce.class);

    FileInputFormat.addInputPath(conf, new Path(inputPath));

    FileOutputFormat.setOutputPath(conf, new Path(outputPath));

    JobClient.runJob(conf);

  }

列表4.3 Hadoop MapReduce词频统计驱动器

　　这个方法建立了一个在给定输入文件夹（inputPath参数）里的文件上执行词频统计程序的作业（Job）。reducers的输出被写到outputath指定的文件夹内。用于运行job的配置信息保存在JobConf对象里。通过setMapperClass()和setReducerClass()方法可以设定mapping和reducing函数。reducer生成的数据类型由setOutputKeyClass()和setOutputValueClass()方法设定。默认情况下假定这些也是mapper的输出数据类型。如果你想设定不同的数据格式的话，可以通过JobConf的setMapOutputKeyClass()和 setMapOutputValueClass()方法设定。mapper的输入数据类型由InputFormat控制。输入格式在这里有详细的讨论。默认的输入格式是“TextInputFormat”，它会以（LongWritable，Text）键值对的方式加载数据。long值表示某一行在文件中的偏移量，Text对象则保存某一行的字符串内容。
　　通过调用JobClient.runJob(conf)即可向MapReduce提交job，这个调用会阻塞直到job完成。如果job失败了，它会抛出一个IOException。JobClient还提供了一个非阻塞版本的调用方法submitJob()。

转自http://www.cnblogs.com/spork/archive/2010/01/10/1643607.html

MapReduce基础的更多相关文章

[Hadoop in Action] 第4章编写MapReduce基础程序
基于hadoop的专利数据处理示例 MapReduce程序框架用于计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的hadoop流式API 用于提升性能的Combine ...
Hadoop 综合揭秘——MapReduce 基础编程（介绍 Combine、Partitioner、WritableComparable、WritableComparator 使用方式）
前言本文主要介绍 MapReduce 的原理及开发,讲解如何利用 Combine.Partitioner.WritableComparator等组件对数据进行排序筛选聚合分组的功能.由于文章是针对开 ...
7，MapReduce基础
目录 MapReduce基础一.关于MapReduce 二.MapReduce的优缺点三.MapReduce的执行流程四.编写MapReduce程序五.MapReduce的主要执行流程 Map ...
MapReduce(一) mapreduce基础入门
一.mapreduce入门 1.什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度 ...
MongoDB:MapReduce基础及实例
背景 MapReduce是个非常灵活和强大的数据聚合工具.它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理. MongoDB也提供了MapReduce,当然查询语肯定是Java ...
MapReduce基础知识
hadoop版本:1.1.2 一.Mapper类的结构 Mapper类是Job.setInputFormatClass()方法的默认值,Mapper类将输入的键值对原封不动地输出. org.apach ...
hadoop mapreduce 基础实例一记词
mapreduce实现一个简单的单词计数的功能. 一,准备工作:eclipse 安装hadoop 插件: 下载相关版本的hadoop-eclipse-plugin-2.2.0.jar到eclipse/ ...
Hadoop系列-MapReduce基础
由于在学习过程中对MapReduce有很大的困惑,所以这篇文章主要是针对MR的运行机制进行理解记录,主要结合网上几篇博客以及视频的讲解内容进行一个知识的梳理. MapReduce on Yarn运行原 ...
MapReduce 基础学习
什么是MapReduce? mapreduce 是一种软件框架 mapreduce job将任务分解为独立的块儿到不同的map task,进行并行处理: map任务输出会做相应的排序处理,并作为r ...

随机推荐

c++11 其他特性（一）
c++11还增加了许多有用的特性,比如: 1. 委托构造函数如果一个类含有很多构造函数,这些构造函数有一些重复的地方,比如: class A{ public: A(){}; A(int a){ a_ ...
AngularJS的directive（指令）配置选项说明
js代码如下: var appModule = angular.module("appModule", []); appModule.controller("Ctrl&q ...
android 开发常用工具类
转载请标明出处:http://blog.csdn.net/lmj623565791/article/details/38965311,本文出自[张鸿洋的博客] 打开大家手上的项目,基本都会有一大批的辅 ...
robotframework笔记27
文档格式可以使用简单的HTML格式测试套件 , 测试用例和用户关键字文档和免费测试套件元数据在测试数据,以及当记录测试库 . 格式类似于大多数使用的风格维基百科,它被设计成可以理 ...
php Composer 报ssl证书错误
CA证书下载地址:http://curl.haxx.se/docs/caextract.html 修改php.ini文件 openssl.cafile= D:/wamp/php/verify/cace ...
HTML5自学笔记[ 11 ]canvas绘图基础1
html5新增<canvas>标签用于绘制图像,默认宽高是300*150,canvas的宽高需要在这里设置,在css中设置会有问题:设置的形状,如矩形,会等比缩放,而非设置的宽高. 在不支 ...
Java并发编程：阻塞队列(转载）
Java并发编程:阻塞队列在前面几篇文章中,我们讨论了同步容器(Hashtable.Vector),也讨论了并发容器(ConcurrentHashMap.CopyOnWriteArrayList), ...
mint上部署lamp环境
不得不说现在在linux mint上部署lamp很方便,比windows服务器上的asp.net的部署升级都简单. 1 安装MySql sudo apt-get install mysql-serve ...
Excepion
异常:就是程序在运行时出现不正常的情况. 异常由来:问题也就是现实生活中一个具体的食物,也可以通过java的类的形式进行秒速.并封装成对象.其实就是java对不正常情况进行毛素后的对象体现. 对于问题 ...
Asp.net 解析json
Asp.net Json数据解析的一种思路 http://www.cnblogs.com/scy251147/p/3317366.html http://tools.wx6.org/json2csha ...

MapReduce基础

MapReduce基础的更多相关文章

随机推荐

热门专题