六、Hadoop1.x与Hadoop2的差别

1、变更介绍

Hadoop2相比較于Hadoop1.x来说，HDFS的架构与MapReduce的都有较大的变化，且速度上和可用性上都有了非常大的提高，Hadoop2中有两个重要的变更：

l HDFS的NameNodes能够以集群的方式布署，增强了NameNodes的水平扩展能力和可用性；

l MapReduce将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的组件，并更名为YARN（Yet Another Resource Negotiator）。

1.1、HDFS的变化 - 增强了NameNode的水平扩展及可用性

1.1.1、Hadoop的1.X架构的介绍

而在1.x中的NameNodes仅仅可能有一个，尽管能够通过SecondaryNameNode与NameNode进行数据同步备份，可是总会存在一定的时延，假设NameNode挂掉，可是假设有部份数据还没有同步到SecondaryNameNode上，还是可能会存在着数据丢失的问题。

架构例如以下：

包括两层：

Namespace

l 包括文件夹、文件以及块的信息

l 支持对Namespace相关文件系统的操作，如添加、删除、改动以及文件和文件夹的展示

Block Storage Service包括两部份

l 块管理（在Namenode中实现的）

提供数据节点群集成员的登记，并定期通过心跳进行检查。

提供块报告以及块的存储位置的维护

提供对块的操作，如对块进行增删改的操作及获取块的存储地址

对块的复本的的复制以及存储位置的管理

l 存储 - 提供Datanode进行数据的本地存储，并提供读写的操作

1.1.1、Hadoop的2.X架构的介绍

在2.X中，HDFS的变化，主要体如今增强了NameNode的水平扩展及可用性，能够同一时候部署多个NameNode，这些NameNodes之间是相互独立，也就是说他们不须要相互协调，DataNode同一时候在全部NameNodes注冊，做为他们共同拥有的存储节点，并向定时向全部的这些NameNodes发送心跳块使用情况的报告，并处理全部NameNodes向其发送的指令。

架构例如以下：

存储块池（Block Pool）

一个存储块池是由一组存储块组成，它属于一个单独的Namespace（Namenode），集群中全部存储块池的存储块都是存放在Datanodes中的。每一个存储块池与其他的存储块池都是独立管理的，因而其在为新的块生成Block IDs时，就不须要与其他Namespace（Namenode）中的存储块池进行协作，即使一个Namespace（Namenode）挂掉了，也不会使得Datanodes中的块被訪问不到，由于其他Namespace（Namenode）中的存储块池也存放了Datanodes中全部存储块的信息。

一个命名空间(Namespace)和它的块池一起被称为命名空间向量。它是一个自包括的管理单元。当一个Namenode/namespace被删除，存储于Datanodes中的相应的存储块池也会被删除掉，在集群的更新过程中，每一个命名空间向量都是以一个总体进行升级的。

集群ID（ClusterID）

集群ID的添加，是用于确认集群中全部的节点，也能够在格式化其他Namenodes时指定集群ID，并使其添加到某个集群中。

1.2、MapReduce拆分JobTracker为资源管理及任务生命周期管理两个独立的组件

MapReduce在Hadoop2中称为MR2或YARN，将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的服务，用于管理全部资源的ResourceManager以及管理每一个应用的ApplicationMaster，ResourceManager用于管理向应用程序分配计算资源，每一个ApplicationMaster用于管理应用程序、调度以及协调。一个应用程序能够是经典的MapReduce架构中的一个单独的任务，也能够是这些任务的一个DAG（有向无环图）任务。ResourceManager及每台机上的NodeManager服务，用于管理那台机的用户进程，形成计算架构。每一个应用程序的ApplicationMaster实际上是一个框架详细库，并负责从ResourceManager中协调资源及与NodeManager(s)协作运行并监控任务。

架构图：

当中ResourceManager包括两个基本的组件：定时调用器(Scheduler)以及应用管理器(ApplicationManager)。

定时调用器(Scheduler)：

定时调度器负责向应用程序分配置资源，它不做监控以及应用程序的状态跟踪，而且它不保证会重新启动由于应用程序本身或硬件出错而运行失败的应用程序。

应用管理器(ApplicationManager)：

应用程序管理器负责接收新任务，协调并提供在ApplicationMaster容器失败时的重新启动功能。

节点管理器（NodeManager）：

NodeManager是ResourceManager在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager/Scheduler提供这些资源使用报告。

应用总管（ApplicationMaster）：

每一个应用程序的ApplicationMaster负责从Scheduler申请资源，以及跟踪这些资源的使用情况以及任务进度的监控。

2、详细变化

2.1、配置文件的路径

在1.x中，Hadoop的配置文件是放在$HADOOP_HOME/conf文件夹下的，关键的配置文件在src文件夹都有相应的存放着默认值的文件，例如以下：

配置文件	默认值配置文件
$HADOOP_HOME/conf/core-site.xml	$HADOOP_HOME/src/core/core-default.xml
$HADOOP_HOME/conf/hdfs-site.xml	$HADOOP_HOME/src/hdfs/hdfs-default.xml
$HADOOP_HOME/conf/mapred-site.xml	$HADOOP_HOME/src/mapred/mapred-default.xml

我们在$HADOOP_HOME/conf以下配置的core-site.xml等的值，就是对默认值的一个覆盖，假设没有在conf以下的配置文件里设置，那么就使用src以下相应文件里的默认值，这个在使用过程中非常方便，也非常有助于我们理解。

Hadoop能够说是云计算的代名词，其也有非常多衍生的产品，不少衍生的配置方式都遵从Hadoop的这样的配置方式，如HBase的配置文件也是$HBase/conf文件夹，核心配置的名称就是hbase-site.xml，假设学习了Hadoop再去学习HBase，从配置的理解上来说，就会有一种亲切的感觉。

可是在2.x中，Hadoop的架构发生了变化，而配置文件的路径也发生了变化，放到了$HADOOP_HOME/etc/hadoop文件夹，这样改动的目的，应该是让其更接近于Linux的文件夹结构吧，让Linux用户理解起来更easy。Hadoop 2.x中配置文件的几个基本的变化：

l 去除了原来1.x中包括的$HADOOP_HOME/src文件夹，该文件夹包括关键配置文件的默认值；

l 默认不存在mapred-site.xml文件，须要将当前mapred-site.xml.template文件copy一份并重命名为mapred-site.xml，而且仅仅是一个具有configuration节点的空文件；

l 默认不存在mapred-queues.xml文件，须要将当前mapred-queues.xml.template文件copy一份并重命名为mapred-queues.xml；

l 删除了master文件，如今master的配置在hdfs-site.xml通过属性dfs.namenode.secondary.http-address来设置，例如以下：

<name>dfs.namenode.secondary.http-address</name>

<value>nginx1:9001</value>

</property>

l 添加了yarn-env.sh，用于设置ResourceManager须要的环境变量，主要须要改动JAVA_HOME；

l 添加yarn-site.xml配置文件，用于设置ResourceManager；

2.2、命令文件文件夹的变化

在1.x中，全部的命令文件，都是放在bin文件夹下，没有区分client和服务端命令，而且终于命令的运行都会调用hadoop去运行；而在2.x中将服务端使用的命令单独放到了sbin文件夹，当中有几个基本的变化：

l 将./bin/hadoop的功能分离。在2.x中./bin/hadoop命令仅仅保留了这些功能：client对文件系统的操作、运行Jar文件、远程拷贝、创建一个Hadoop压缩、为每一个守护进程设置优先级及运行类文件，另外添加了一个检查本地hadoop及压缩库是否可用的功能，详情能够通过命令“hadoop -help”查看。

而在1.x中，./bin/hadoop命令还包括：NameNode的管理、DataNode的管理、 TaskTracker及JobTracker的管理、服务端对文件系统的管理、文件系统的检查、获取队列信息等，详情能够通过命令“hadoop -help”查看。

l 添加./bin/hdfs命令。./bin/hadoop命令的功能被剥离了，并非代表这些命令不须要了，而是将这些命令提到另外一个名为hdfs的命令中，通过hdfs命令能够对NameNode格式化及启动操作、启动datanode、启动集群平衡工具、从配置库中获取配置信息、获取用户所在组、运行DFS的管理client等，详细能够通过“hdfs -help”查看。

l 添加./bin/yarn命令。原来1.x中对JobTracker及TaskTracker的管理，放到了新增的yarn命令中，该命令能够启动及管理ResourceManager、在每台slave上面都启一个NodeManager、运行一个JAR或CLASS文件、打印须要的classpath、打印应用程序报告或者杀死应用程序等、打印节点报告等，详情能够通过命令“yarn -help”查看。

l 添加./bin/mapred命令。该命令能够用于运行一个基于管道的任务、计算MapReduce任务、获取队列的信息、独立启动任务历史服务、远程文件夹的递归拷贝、创建hadooop压缩包，详情能够通过“./mapred -help”。

Hadoop入门进阶步步高（六）-Hadoop1.x与Hadoop2的差别的更多相关文章

Hadoop入门进阶步步高（五）-搭建Hadoop集群
五.搭建Hadoop集群上面的步骤,确认了单机能够运行Hadoop的伪分布运行,真正的分布式运行无非也就是多几台slave机器而已,配置方面的有一点点差别,配置起来就很easy了. 1.准备三台se ...
Hadoop入门进阶步步高（三）-配置Hadoop
三.配置Hadoop 1.设置$HADOOP_HOME/conf/hadoop-env.sh 这个文件里设置的是Hadoop运行时须要的环境变量,在1.2.1版中共同拥有19个环境变量.例如以下: ...
Hadoop入门进阶步步高（一）-环境准备
前言 Hadoop从存储上来说,是相似于冗余磁盘阵列(RAID)的存储方式.将数据分散存储并提供以提供吞吐量,它的存储系统就是HDFS(Hadoop Distuibute Fils System).从 ...
Hadoop入门进阶步步高（二）-文件夹介绍
二.Hadoop文件夹结构这里重点介绍几个文件夹bin.conf及lib文件夹. 1.$HADOOP_HOME/bin文件夹文件名说明 hadoop 用于运行hadoop脚本命令,被hadoop ...
Hadoop入门进阶课程3--Hadoop2.X64位环境搭建
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程13--Chukwa介绍与安装部署
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程12--Flume介绍、安装与应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程11--Sqoop介绍、安装与操作
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop入门进阶课程10--HBase介绍、安装与应用案例
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...

随机推荐

再谈JSON -json定义及数据类型
再谈json 近期在项目中使用到了highcharts ,highstock做了一些统计分析.使用jQuery ajax那就不得不使用json, 可是在使用过程中也出现了非常多的疑惑,比方说,什么情况 ...
Cocos2d-x 3.1.1 学习日志8--2分钟让你知道cocos2d-x3.1.1 文本类别
实际上文本经常使用的三个,LabelTTF,LabelBMF和LabelAtlas.而他们使用非常相似.所以,你会只举一反三,非常快就能够掌握了. <span style="font- ...
Android仿iOS7的UISegmentedControl 分段
效果图: 这里仅仅简单做了两个button的. 首先是两个button的背景: res/drawable/seg_left.xml <?xml version="1.0" e ...
win7如何清理图标缓存
rem 关闭Windows外壳程序explorer taskkill /f /im explorer.exe rem 清理系统图标缓存数据库 attrib -h -s -r "%userpr ...
AccountManager使用教程
API解读这个类给用户提供了集中注冊账号的接口.用户仅仅要输入一次账户password后,就能够訪问internet资源. 不同的在线服务用不同的方式管理用户,所以account manager 为 ...
Linux/UNIX之信号（2）
信号(2) sigaction函数 sigaction函数的功能是检查或改动与制定信号相关联的处理动作.此函数代替了signal函数. #include <signal.h> int si ...
Libevent使用样例，从简单到复杂
转载请注明出处:http://blog.csdn.net/luotuo44/article/details/39670221 本文从简单到复杂.展示怎样使用libevent.网上的很多 ...
Android中G-Sensor相关流程
1.使G-sensor正常工作需要做的事: G-sensor driver文件包括: driver/i2c/chips/lis331dl.c driver/i2c/chips/sensorioctl. ...
c#控制台应用程序-“进入指定日期检查出星期几”
这涉及一个算法: 基姆拉尔森计算公式 W= (d+2*m+3*(m+1)/5+y+y/4-y/100+y/400+1) mod 7 在公式中d表示日期中的日数.m表示月份数.y表示年数. 注意:在公式 ...
移动开发平台-应用之星app制作教程
目前在AppStore.GooglePlay等应用商店里已经有以百万计的Apps,应用程序使移动互联网空间得以无限拓展.很多人梦想着AngryBirds式的奇迹在自己身上发生,他们渴望自己开发的应用程 ...

Hadoop入门进阶步步高（六）-Hadoop1.x与Hadoop2的差别