MapReduce：并行计算框架

MapReduce 是 Hadoop 的核心组成,是专用于进行数据计算的。重点掌握实现 MapReduce 算法的步骤，掌握 map、reduce 函数的特点、如何写函数。

如果我们把 MapReduce 拆开看，就是两个单词 map 和 reduce。map 翻译为“映射” ，reduce 翻译为“归约” 。

Hadoop中的Map和Reduce

1，在 Hadoop 中，map 函数位于内置类 org.apache.hadoop.mapreduce.Mapper<KEYIN,VALUEIN, KEYOUT, VALUEOUT>中，reduce 函数位于内置类 org.apache.hadoop.mapreduce.Reducer<KEYIN, VALUEIN, KEYOUT, VALUEOUT>中。我们要做的就是覆盖
map 函数和 reduce 函数。

对于 Hadoop 的 map 函数和 reduce 函数，处理的数据是键值对，也就是说 map 函数接收的数据是键值对，两个参数；输出的也是键值对，两个参数；reduce 函数接收的参数和输出的结果也是键值对。

现在再看一下 Mapper 类，有四个泛型，分别是 KEYIN、VALUEIN、KEYOUT、VALUEOUT，前面两个 KEYIN、 VALUEIN 指的是 map 函数输入的参数 key、 value 的类型；后面两个 KEYOUT、VALUEOUT 指的是 map 函数输出的 key、value 的类型。

源码中的Mapper.map
  /**
   * Called once for each key/value pair in the input split. Most applications
   * should override this, but the default is the identity function.
   */
  @SuppressWarnings("unchecked")
  protected void map(KEYIN key, VALUEIN value,
                     Context context) throws IOException, InterruptedException {
    context.write((KEYOUT) key, (VALUEOUT) value);
  }
源码中输入参数 key、value 的类型就是 KEYIN、VALUEIN，每一个键值对都会调用一次 map 函数。在这里，map 函数没有处理输入的 key、value，直接通过 context.write(…)方法输出了，输出的 key、value 的类型就是 KEYOUT、VALUEOUT。这是默认实现，通常是需要我们根据业务逻辑覆盖的

2，接下来看一下 Reducer 类，也有四个泛型，同理，分别指的是 reduce 函数输入的 key、value

类型，和输出的 key、value 类型。看一下 reduce 函数定义
  /**
   * This method is called once for each key. Most applications will define
   * their reduce class by overriding this method. The default implementation
   * is an identity function.
   */
  @SuppressWarnings("unchecked")
  protected void reduce(KEYIN key, Iterable<VALUEIN> values, Context context
                        ) throws IOException, InterruptedException {
    for(VALUEIN value: values) {
      context.write((KEYOUT) key, (VALUEOUT) value);
    }
  }
reduce 函数的形参 key、value 的类型是 KEYIN、VALUEIN。要注意这里的value 是存在于java.lang.Iterable<VALUEIN>中的，这是一个迭代器，用于集合遍历的，意味着 values 是一个集合。reduce 函数默认实现是把每个 value 和对应的 key，通过调用context.write(…)输出了，这里输出的类型是
KEYOUT、VALUEOUT。通常我们会根据业务逻辑覆盖 reduce 函数的实现。

MapReduce：并行计算框架的更多相关文章

Spark 介绍（基于内存计算的大数据并行计算框架）
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark 行业广泛使用Hadoop来分析他们的数据集.原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持 ...
Java 7 Fork/Join 并行计算框架概览
应用程序并行计算遇到的问题当硬件处理能力不能按摩尔定律垂直发展的时候,选择了水平发展.多核处理器已广泛应用,未来处理器的核心数将进一步发布,甚至达到上百上千的数量.而现在很多的应用程序在运行在多核 ...
Tiny并行计算框架之复杂演示样例
问题来源很感谢@doctorwho的问题: 假如职业介绍所来了一批生产汽车的工作,如果生产一辆汽车任务是这种:搭好底盘.拧4个轮胎.安装发动机.安装4个座椅.再装4个车门.最后安装顶棚. 之间有的 ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
MR 01 - MapReduce 计算框架入门
目录 1 - 什么是 MapReduce 2 - MapReduce 的设计思想 2.1 如何海量数据:分而治之 2.2 方便开发使用:隐藏系统层细节 2.3 构建抽象模型:Map 和 Reduce ...
Fork/Join-Java并行计算框架
Java在JDK7之后加入了并行计算的框架Fork/Join,可以解决我们系统中大数据计算的性能问题.Fork/Join采用的是分治法,Fork是将一个大任务拆分成若干个子任务,子任务分别去计算,而J ...
jdk7 并行计算框架Fork/Join
故名思义,拆分fork+合并join.jdk1.7整合Fork/Join,性能上有大大提升. 思想:充分利用多核CPU把计算拆分成多个子任务,并行计算,提高CPU利用率大大减少运算时间.有点像,Map ...
Java线程(十一)：Fork/Join-Java并行计算框架
并行计算在处处都有大数据的今天已经不是一个新奇的词汇了.如今已经有单机多核甚至多机集群并行计算.注意,这里说的是并行,而不是并发.严格的将,并行是指系统内有多个任务同一时候运行,而并发是指系统内有多个 ...
Big Data（七）MapReduce计算框架
二.计算向数据移动如何实现? Hadoop1.x(已经淘汰): hdfs暴露数据的位置 1)资源管理 2)任务调度角色:JobTracker&TaskTracker JobTracker: ...

随机推荐

python3.6安装PyQt5
1.安装环境: python3.6 win8系统 2.安装方法直接在windows cmd命令行(不需要进入python命令行模式)内输入 pip install PyQt5 等一会就行了. 用pi ...
[Codeforces 961G]Partitions
Description 题库链接给你 \(n\) 个不同的元素组成的集合 \(R\) ,每个元素有一个权值 \(w\) .对于一个子集集合 \(S\) ,它的价值为 \(W(S)=|S|\cdot\ ...
[SDOI2008]烧水问题
题目描述把总质量为1kg的水分装在n个杯子里,每杯水的质量均为(1/n)kg,初始温度均为0℃.现需要把每一杯水都烧开.我们可以对任意一杯水进行加热.把一杯水的温度升高t℃所需的能量为(4200*t ...
●BZOJ 2820 YY的GCD
题链: http://www.lydsy.com/JudgeOnline/problem.php?id=2820 题解: 莫比乌斯反演先看看这个题:HDU 1695 GCD(本题简化版) HDU 1 ...
UVA - 11732："strcmp()" Anyone?
字典树问题对于普通的字典树,可以加一个vector数组记录非空的孩子,加快速度还可以用左孩子右兄弟来节省空间,因为普通的trie的话是 int next[MAXN][26] 而左孩子右兄弟可以把[ ...
hdu 2825 aC自动机+状压dp
Wireless Password Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others ...
Python【第五课】迭代器，生成器，数据序列化
本节内容列表生成式,生成器,迭代器 Json & pickle 数据序列化 1.列表生成式,生成器,迭代器 1.1 列表生成式列表生成式?不就是生成个列表的表达式,恩~~~ 差不多. 一般 ...
SpringBoot 中 get/post 请求处理方式，以及requestboy为Json时的处理
GET.POST方式提时, 根据request header Content-Type的值来判断: application/x-www-form-urlencoded, 可选(即非必须,因为这种情况的 ...
C语言分支与循环递推思想穷举流程的转移控制
条件语句开关控制语句(SWITCH语句) 象坐电梯一样,break是按的楼层,不加break则会一直执行下去. 上面程序有细节BUG,边界测试输入-5,105时由于整除会得到错误的结果. 解决方法: ...
angularjs+ionic的app端分页和条件
做app项目积分商城的商品列表需要分页显示实现: ionic滚动条:ion-scroll 用于创建一个可滚动的容器. 附:菜鸟教程:http://www.runoob.com/ionic/ionic ...

MapReduce：并行计算框架

MapReduce：并行计算框架的更多相关文章

随机推荐

热门专题