一、1.0版本

主要由两部分组成：编程模型和运行时环境。

编程模型为用户提供易用的编程接口，用户只需编写串行程序实现函数来实现一个分布式程序，其他如节点间的通信、节点失效，数据切分等，则由运行时环境完成。

基本编程模型将问题抽象成Map和Reduce两个阶段，Map阶段将输入数据解析成key/value，迭代调用map()函数后，再以key/value的形式输出到本地目录；Reduce阶段则将key相同的value进行归约处理，并将最终结果写入到HDFS。

运行时环境由JobTracker和TaskTracker两类服务组成，JobTracker负责资源管理和所有作业的控制，TaskTracker负责接收来自JobTracker的命令并执行。

二、2.0版本

2.0版本在编程模型上是一样的，但是在运行时环境上引入全新的资源管理框架：YARN，将JobTracker中的资源管理和作业控制功能分开，分别由两个不同进程ResourceManager和ApplicationMaster实现，ResourceManager负责所有应用程序的资源分配，Application负责管理一个应用程序。

三、其他区别

在HDFS方面，2.0版本引入HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展，同时彻底解决NameNode单点故障问题。

四、总结

可以看出，在计算框架MapReduce方面，1.0和2.0的主要差异还是在资源管理方面，YARN的引入让MapReduce在扩展性和多框架支持方面更加完善。而存储系统引入HDFS联盟来解决1.0版本的扩展问题。

从计算框架MapReduce看Hadoop1.0和2.0的区别的更多相关文章

Hadoop1.0 和 Hadoop2.0
date: 2018-11-16 18:54:37 updated: 2018-11-16 18:54:37 1.从Hadoop整体框架来说 1.1 Hadoop1.0即第一代Hadoop,由分布式存 ...
Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
1. MapReduce - 映射.化简编程模型 1.1 MapReduce 的概念 1.1.1 map 和 reduce 1.1.2 shufftle 和排序 MapReduce 保证每个 red ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
Big Data（七）MapReduce计算框架
二.计算向数据移动如何实现? Hadoop1.x(已经淘汰): hdfs暴露数据的位置 1)资源管理 2)任务调度角色:JobTracker&TaskTracker JobTracker: ...
MR 01 - MapReduce 计算框架入门
目录 1 - 什么是 MapReduce 2 - MapReduce 的设计思想 2.1 如何海量数据:分而治之 2.2 方便开发使用:隐藏系统层细节 2.3 构建抽象模型:Map 和 Reduce ...
一文理解Hadoop分布式存储和计算框架入门基础
@ 目录概述定义发展历史发行版本优势生态项目架构组成模块 HDFS架构 YARN架构部署部署规划前置条件部署步骤下载文件(三台都执行) 创建目录(三台都执行) 配置环境变量( ...
Storm：分布式流式计算框架
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 由于Storm的处理组件都是分布式的,而且处理 ...
2_分布式计算框架MapReduce
一.mr介绍 1.MapReduce设计理念是移动计算而不是移动数据,就是把分析计算的程序,分别拷贝一份到不同的机器上,而不是移动数据. 2.计算框架有很多,不是谁替换谁的问题,是谁更适合的问题.mr ...
Hadoop 三剑客之 —— 分布式计算框架 MapReduce
一.MapReduce概述二.MapReduce编程模型简述三.combiner & partitioner 四.MapReduce词频统计案例 4.1 项目简介 ...

随机推荐

java少包汇总
1.在下载使用javax.mail的jar包时候,注意: 有的jar没有包含sun的实现,只包含了api,这类jar名称通常为javax.mail-api-x.x.x.jar,在使用smtp协议发邮件 ...
(转)Android DiskLruCache完全解析，硬盘缓存的最佳方案
摘自:http://blog.csdn.net/guolin_blog/article/details/28863651 转载请注明出处: http://blog.csdn.net/guolin_bl ...
从内存的角度观察堆、栈、全局区（静态区）（static）、文字常量区、程序代码区
之前写了一篇堆栈的,这里再补充下内存其他的区域 1.栈区(stack)— 由编译器自动分配释放 ,存放函数的参数值,局部变量的值等.其操作方式类似于数据结构中的栈. 2.堆区(heap) — 一般由程 ...
mysql的partition分区
前言:当一个表里面存储的数据特别多的时候,比如单个.myd数据都已经达到10G了的话,必然导致读取的效率很低,这个时候我们可以采用把数据分到几张表里面来解决问题.方式一:通过业务逻辑根据数据的大小通过 ...
搭建基于hyperledger fabric的联盟社区（九） --检索状态数据库
一.启动elasticsearch服务官网下载压缩包解压,进入bin目录启动: ./elasticsearch 通过ip访问 localhost:9200,可以看到如下信息 { name: &quo ...
debian修改连接数限制
golang写的socket做压力测试的时候,提示too many open files,解决方法如下 sudo gvim /etc/security/limits.conf 添加 * - nofil ...
20165226 2017-2018-2《Java程序设计》课程总结
目录一.作业汇总二.总结三.问卷调查一.作业汇总预备作业1:我期望的师生关系预备作业2:学习基础和C语言基础调查预备作业3:linux安装及学习第一周: Java入门第一周学习总结 ...
USB设备---URB请求块
1．urb 结构体 USB 请求块(USB request block,urb)是USB 设备驱动中用来描述与USB 设备通信所用的基本载体和核心数据结构,非常类似于网络设备驱动中的sk_buff 结 ...
CDN之多边缘节点负载均衡－－学习笔记
一.剧情剧情是这样的,本次的多边缘节点负载均衡实验,1个LVS四层负载均衡集群和1个Nginx为反向代理的七层负载均衡集群,由Bind dns解析作为主负载均衡服务器,调度两个集群,中间层有一台W ...
Android屏幕相关概念和适配方法
参考文档: 1.http://blog.csdn.net/carson_ho/article/details/51234308(略有修改) 2.http://www.cnblogs.com/cheng ...