MapReduce计算框架的核心编程思想

概念
MapReduce中常用的组件

概念

Job(作业) : 一个MapReduce程序称为一个Job。

MRAppMaster（MR任务的主节点）: 一个Job在运行时，会先启动一个进程，这个进程称为MRAppMaster，负责Job中执行状态的监控，容错，和RM申请资源，提交Task等。

Task(任务)： Task是一个进程，负责某项计算。

Map(Map阶段)：Map是MapReduce程序运行的第一个阶段，Map阶段的目的是将输入的数据，进行切分。将一个大文件，切分为若干小部分！切分后，每个部分称为1片(split)，每片数据会交给一个Task（进程），Task负责Map阶段程序的计算，称为MapTask。在一个MR程序的Map阶段，会启动N（取决于切片数）个MapTask。每个MapTask是并行运行。

Reduce(Reduce阶段)： Reduce是MapReduce程序运行的第二个阶段(最后一个阶段)！Reduce阶段的目的是将Map阶段的每个MapTask计算后的结果进行合并汇总！得到最终结果！Reduce阶段是可选的，Task负责Reduce阶段程序的计算，称为ReduceTask，一个Job可以通过设置，启动N个ReduceTask，这些ReduceTask也是并行运行！每个ReduceTask最终都会产生一个结果。

MapReduce中常用的组件

①Mapper：map阶段核心的处理逻辑

②Reducer： reduce阶段核心的处理逻辑

③InputFormat：输入格式

MR程序必须指定一个输入目录，一个输出目录
InputFormat代表输入目录中文件的格式
如果是普通文件，可以使用FileInputFormat
如果是SequeceFile（hadoop提供的一种文件格式），可以使用SequnceFileInputFormat
如果处理的数据在数据库中，需要使用DBInputFormat

④RecordReader: 记录读取器

RecordReader负责从输入格式中，读取数据，读取后封装为一组记录(k-v)

⑤OutPutFormat: 输出格式

OutPutFormat代表MR处理后的结果，要以什么样的文件格式写出
将结果写出到一个普通文件中，可以使用FileOutputFormat
将结果写出到SequeceFile中，可以使用SequnceFileOutputFormat
将结果写出到数据库中，可以使用DBOutPutFormat

⑥RecordWriter: 记录写出器

RecordWriter将处理的结果以什么样的格式，写出到输出文件中

⑦Partitioner: 分区器

分区器，负责在Mapper将数据写出时，将keyout-valueout，为每组keyout-valueout打上标记，进行分区
目的：一个ReduceTask只会处理一个分区的数据！

MapReduce计算框架的核心编程思想的更多相关文章

MapReduce的核心编程思想
1.MapReduce的核心编程思想 2.yarn集群工作机制 3.maptask并行度与决定机制 4.maptask工作机制 5.MapReduce整体流程 6.shuffle机制 7.yarn架构
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
小马哥讲Spring栈核心编程思想 Spring IoC+Bean+Framework
小马哥出手的Spring栈核心编程思想课程,可以说是非常专业和权威的Spring课程.课程主要的方向与核心是Spring Framework总览,带领同学们重新认识重新认识IoC,Spring IoC ...
MR 01 - MapReduce 计算框架入门
目录 1 - 什么是 MapReduce 2 - MapReduce 的设计思想 2.1 如何海量数据:分而治之 2.2 方便开发使用:隐藏系统层细节 2.3 构建抽象模型:Map 和 Reduce ...
Big Data（七）MapReduce计算框架
二.计算向数据移动如何实现? Hadoop1.x(已经淘汰): hdfs暴露数据的位置 1)资源管理 2)任务调度角色:JobTracker&TaskTracker JobTracker: ...
Big Data（七）MapReduce计算框架（PPT截图）
一.为什么叫MapReduce? Map是以一条记录为单位映射 Reduce是分组计算
mapreduce计算框架
一. MapReduce执行过程分片: (1)对输入文件进行逻辑分片,划分split(split大小等于hdfs的block大小) (2)每个split分片文件会发往不同的Mapper节点进行分散处 ...
Hadoop中MapReduce计算框架以及HDFS可以干点啥
我准备学习用hadoop来实现下面的过程: 词频统计存储海量的视频数据倒排索引数据去重数据排序聚类分析 ============= 先写这么多
MapReduce的编程思想(1)
MapReduce的编程思想(1) MapReduce的过程(2) 1. MapReduce采用分而治之的思想,将数据处理拆分为主要的Map(映射)与Reduce(化简)两步,MapReduce操作数 ...

随机推荐

Windows下C,C++开发环境搭建指南
Windows下C,C++开发环境搭建指南前情提要基于近一段时间很多网友发邮件反馈,说一些项目编译出现问题,诸如此类的情况. 就觉得很有必要写一篇C,C++开发环境的小指南,统一回复. 1.君欲善 ...
[每日一题2020.06.15]P1226 【模板】快速幂取余运算
我是题目快速幂就是快速求 \(a^b\)的一种算法快速幂思想 : 比如我要求 \(6^9\) 首先将幂转化为二进制形式 : \[6^9 = 6^{1001} \tag{1} \] 可以得到 : ...
Python爬虫小白入门（七）爬取豆瓣音乐top250
抓取目标: 豆瓣音乐top250的歌名.作者(专辑).评分和歌曲链接使用工具: requests + lxml + xpath. 我认为这种工具组合是最适合初学者的,requests比pytho ...
cb36a_c++_STL_算法_区间的比较equal_mismatch_lexicographical_compare
*cb36a_c++_STL_算法_区间的比较equal_mismatch_lexicographical_compare 区间:容器中的全部数据或者部分数据,都叫做区间 equal(b,e,b2), ...
【django】CMS开发笔记一:虚拟环境配置
项目代码:https://github.com/pusidun/CMS-django 使用虚拟环境虚拟环境是Python解释器的虚拟副本.在虚拟环境中安装私有包,不会影响全局的Python解释器.可 ...
Java并发编程-Java内存模型
JVM内存结构与Java内存模型经常会混淆在一起,本文将对Java内存模型进行详细说明,并解释Java内存模型在线程通信方面起到的作用. 我们常说的JVM内存模式指的是JVM的内存分区:而Java内存 ...
redis高级命令1
设置name的过期时间是20秒 redis默认是16个数据库,默认是将数据存储在第0个数据库中因为默认是0,当你选择其他数据的时候,是没有值的
java scoket aIO 通信
AsynchronousServerSocketChannel assc.accept(this, new ServerCompletionHandler()); 第一个参数是服务器的处理类,第二个参 ...
WebGPU+光线追踪Ray Tracing 开发三个月总结
大家好~这三个月以来,我一直在学习和实现"基于WebGPU的混合光线追踪实时渲染"的技术,使用了Ray Tracing管线(如.rgen..rmiss等着色器). 现在与大家分享和 ...
html+css快速入门教程（5）
练习: 1.画盒子1 2.画盒子2 3.京东特色购物 4.京东发现好货 5.京东玩3c 7.3 定位通过使用 position 属性,我们可以选择 3 种不同类型的定位,这会影响元素框生成的方式. ...

MapReduce计算框架的核心编程思想

概念

MapReduce中常用的组件

MapReduce计算框架的核心编程思想的更多相关文章

随机推荐

热门专题