1、HDFS副本机制

Hadoopde 默认副本布局策略是：

（1）在运行客户端的节点上放置第一个副本（如果客户端运行在集群之外，就随机选择一个节点，不过系统会避免选择那些存储太满或者太忙的节点）；

（2）第二个副本放置在与第一不同且随机另外选择的机架节点上；

（3）第三个副本放置在与第二个副本在同一机架上，且随机选择的另外的一个节点上；

（4）其他的副本放置在随机选择的另外的节点上，不过系统会避免在同一个机架上防止太多的副本。

一旦选择了副本的放置位置，就会根据网络拓扑创建一个管线。例如副本数为3，如下图

这种方法的好处就在于：

减少了机架间的数据传输，提高了写操作的效率，因为数据块只存放在两个不同的机架上，减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

2、Hadoop1.0与Hadoop2.0的区别

一、从Hadoop整体框架来说

　　Hadoop1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中HDFS由一个NameNode和多个DateNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。

　　

　　Hadoop2.0即第二代Hadoop为克服Hadoop1.0中的不足：针对Hadoop1.0单NameNode制约HDFS的扩展性问题，提出HDFS Federation，它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展，同时彻底解决了NameNode单点故障问题；针对Hadoop1.0中的MapReduce在扩展性和多框架支持等方面的不足，它将JobTracker中的资源管理和作业控制分开，分别由ResourceManager（负责所有应用程序的资源分配）和ApplicationMaster（负责管理一个应用程序）实现，即引入了资源管理框架Yarn。同时Yarn作为Hadoop2.0中的资源管理系统，它是一个通用的资源管理模块，可为各类应用程序进行资源管理和调度，不仅限于MapReduce一种框架，也可以为其他框架使用，如Tez、Spark、Storm等

二、从MapReduce计算框架来讲

　　MapReduce1.0计算框架主要由三部分组成：编程模型、数据处理引擎和运行时环境。它的基本编程模型是将问题抽象成Map和Reduce两个阶段，其中Map阶段将输入的数据解析成key/value，迭代调用map()函数处理后，再以key/value的形式输出到本地目录，Reduce阶段将key相同的value进行规约处理，并将最终结果写到HDFS上；它的数据处理引擎由MapTask和ReduceTask组成，分别负责Map阶段逻辑和Reduce阶段的逻辑处理；它的运行时环境由一个JobTracker和若干个TaskTracker两类服务组成，其中JobTracker负责资源管理和所有作业的控制，TaskTracker负责接收来自JobTracker的命令并执行它。

　　MapReducer2.0具有与MRv1相同的编程模型和数据处理引擎，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架Yarn之上的计算框架MapReduce。它的运行时环境不再由JobTracker和TaskTracker等服务组成，而是变为通用资源管理系统Yarn和作业控制进程ApplicationMaster，其中Yarn负责资源管理的调度而ApplicationMaster负责作业的管理。

３、ＨＤＦＳ的读和写

1、写的过程

写详细步骤：

1、客户端发起请求：hadoop fs -put hadoop.tar.gz /　

客户端怎么知道请求发给那个节点的哪个进程？

因为客户端会提供一些工具来解析出来你所指定的HDFS集群的主节点是谁，以及端口号等信息，主要是通过URI来确定，

url：hdfs://hadoop1:9000 当前请求会包含一个非常重要的信息：上传的数据的总大小

2、namenode会响应客户端的这个请求

namenode的职责： 1 管理元数据（抽象目录树结构）用户上传的那个文件在对应的目录如果存在。那么HDFS集群应该作何处理，不会处理用户上传的那个文件要存储的目录不存在的话，如果不存在不会创建

2、响应请求真正的操作：做一系列的校验， (1)、校验客户端的请求是否合理 (2)、校验客户端是否有权限进行上传 1、客户端向NameNode发出写文件请求。

3、如果namenode返回给客户端的结果是通过，那就是允许上传

namenode会给客户端返回对应的所有的数据块的多个副本的存放节点列表，如：

file1_blk1 hadoop02，hadoop03，hadoop04

file1_blk2 hadoop03，hadoop04，hadoop05

4、客户端在获取到了namenode返回回来的所有数据块的多个副本的存放地的数据之后，就可以按照顺序逐一进行数据块的上传操作

5、对要上传的数据块进行逻辑切片

切片分成两个阶段:

1、规划怎么切

2、真正的切物理切片： 1 和 2

逻辑切片： 1

file1_blk1 ： file1:0:128

file1_blk2 ： file1:128:256

6、开始上传第一个数据块

7、客户端会做一系列准备操作

1、依次发送请求去连接对应的datnaode

pipline : client - node1 - node2 - node3

按照一个个的数据包的形式进行发送的。每次传输完一个数据包，每个副本节点都会进行校验，依次原路给客户端

2、在客户端会启动一个服务：

用户就是用来等到将来要在这个pipline数据管道上进行传输的数据包的校验信息

客户端就能知道当前从clinet到写node1,2,3三个节点上去的数据是否都写入正确和成功

8、clinet会正式的把这个快中的所有packet都写入到对应的副本节点

1、block是最大的一个单位，它是最终存储于DataNode上的数据粒度，由dfs.block.size参数决定，2.x版本默认是128M；注：这个参数由客户端配置决定；如：System.out.println(conf.get(“dfs.blocksize”));//结果是134217728

2、packet是中等的一个单位，它是数据由DFSClient流向DataNode的粒度，以dfs.write.packet.size参数为参考值，默认是64K；注：这个参数为参考值，是指真正在进行数据传输时，会以它为基准进行调整，调整的原因是一个packet有特定的结构，调整的目标是这个packet的大小刚好包含结构中的所有成员，同时也保证写到DataNode后当前block的大小不超过设定值；

如：System.out.println(conf.get(“dfs.write.packet.size”));//结果是65536

3、chunk是最小的一个单位，它是DFSClient到DataNode数据传输中进行数据校验的粒度，由io.bytes.per.checksum参数决定，默认是512B；注：事实上一个chunk还包含4B的校验值，因而chunk写入packet时是516B；数据与检验值的比值为128:1，所以对于一个128M的block会有一个1M的校验文件与之对应；

如：System.out.println(conf.get(“io.bytes.per.checksum”));//结果是512

9、clinet进行校验，如果校验通过，表示该数据块写入成功

10、重复7 8 9 三个操作，来继续上传其他的数据块

11、客户端在意识到所有的数据块都写入成功之后，会给namenode发送一个反馈，就是告诉namenode当前客户端上传的数据已经成功。

读的过程：

读的步骤

1、客户端调用FileSystem 实例的open 方法，获得这个文件对应的输入流InputStream。

2、通过RPC 远程调用NameNode ，获得NameNode 中此文件对应的数据块保存位置，包括这个文件的副本的保存位置( 主要是各DataNode的地址) 。

3、获得输入流之后，客户端调用read 方法读取数据。选择最近的DataNode 建立连接并读取数据。

4、如果客户端和其中一个DataNode 位于同一机器(比如MapReduce 过程中的mapper 和reducer)，那么就会直接从本地读取数据。

5、到达数据块末端，关闭与这个DataNode 的连接，然后重新查找下一个数据块。

6、不断执行第2 - 5 步直到数据全部读完。

7、客户端调用close ，关闭输入流DFS InputStream。

4、yarn框架

Apache Yarn是Hadoop的一个集群资源管理框架。YARN被引入Hadoop 2，最初是为了改善MapReduce的实现，但是他具有足够的通用性，同样可以支持其他的分布式计算模式。

运行机制

YARN通过两类长期运行的守护进程提供自己的和核心服务：管理集群上的资源使用的ResourceManager 运行在集群中所有节点上的而且能够启动和监控容器（container）的节点管理器（Node Manager）。容器是用于执行特定应用程序的进程，每个容器都有资源限制（内存、CPU等）。一个容器可以是一个Unix进程，也乐意是一组Linux cgroup取决于Yarn的配置。

主要有三大模块RM NM AM

其中，ResourceManager负责所有资源的监控、分配和管理；ApplicationMaster负责每一个具体应用程序的调度和协调；NodeManager负责每一个节点的维护。对于所有的applications，RM拥有绝对的控制权和对资源的分配权。而每个AM则会和RM协商资源，同时和NodeManager通信来执行和监控task。

为了在Yarn上运行一个应用，首先，客户端联系资源管理器，要求他运行一个application Master进程。然后，资源管理器找到一个能够在容器中启动application Master的节点管理器。 application Master一旦运行起来做些什么依赖于应用本身。每一个MapReduce作业都会有一个application Master。

ResourceManager的功能有

1、ResourceManager负责整个集群的资源管理和分配，是一个全局的资源管理系统。

2、NodeManager以心跳的方式向ResourceManager汇报资源使用情况（目前主要是CPU和内存的使用情况）。RM只接受NM的资源回报信息，对于具体的资源处理则交给NM自己处理。

3、YARN Scheduler根据application的请求为其分配资源，不负责application

job的监控、追踪、运行状态反馈、启动等工作。

NodeManager的作用有

1、 NodeManager是每个节点上的资源和任务管理器，它是管理这台机器的代理，负责该节点程序的运行，以及该节点资源的管理和监控。YARN集群每个节点都运行一个NodeManager。

/2、NodeManager定时向ResourceManager汇报本节点资源（CPU、内存）的使用情况和Container的运行状态。当ResourceManager宕机时NodeManager自动连接RM备用节点。

/3、NodeManager接收并处理来自ApplicationMaster的Container启动、停止等各种请求。

ApplicationMaster的作用有：

1、用户提交的每个应用程序均包含一个ApplicationMaster，它可以运行在ResourceManager以外的机器上。

2、负责与RM调度器协商以获取资源（用Container表示）。

3、将得到的任务进一步分配给内部的任务(资源的二次分配)。

4、与NM通信以启动/停止任务。

5、监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务。

6、当前YARN自带了两个ApplicationMaster实现，一个是用于演示AM编写方法的实例程序DistributedShell，它可以申请一定数目的Container以并行运行一个Shell命令或者Shell脚本；另一个是运行MapReduce应用程序的AM—MRAppMaster。

注：RM只负责监控AM，并在AM运行失败时候启动它。RM不负责AM内部任务的容错，任务的容错由AM完成。

参考文章：

https://blog.csdn.net/u012050154/article/details/52353545

https://www.cnblogs.com/qingyunzong/p/8548806.html

https://www.cnblogs.com/BYRans/p/5513991.html

Hadoop 相关知识点（二）的更多相关文章

Hadoop 相关知识点（一）
作业提交流程(MR执行过程) Mapreduce2.x Client:用来提交作业 ResourceManager:协调集群上的计算资源的分配 NodeManager:负责启动和监控集群上的计算容器( ...
Caffe学习系列（二）Caffe代码结构梳理，及相关知识点归纳
前言: 通过检索论文.书籍.博客,继续学习Caffe,千里之行始于足下,继续努力.将自己学到的一些东西记录下来,方便日后的整理. 正文: 1.代码结构梳理在终端下运行如下命令,可以查看caffe代码 ...
[Linux] 安装JDK和Maven及hadoop相关环境
紧接上一篇,继续安装hadoop相关环境 JDK安装: 1. 下载,下面这两个地址在网上找的,可以直接下载: http://download.oracle.com/otn-pu ...
学习记录013-NFS相关知识点
一.NFS相关知识点 1.NFS常用的路径/etc/exports NFS服务主配置文件,配置NFS具体共享服务的地点/usr/sbin/exportfs NFS服务的管理命令,exportfs -a ...
Python开发一个csv比较功能相关知识点汇总及demo
Python 2.7 csv.reader(csvfile, dialect='excel', **fmtparams)的一个坑:csvfile被csv.reader生成的iterator,在遍历每二 ...
Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop
Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关介绍. Hive Pig和Hive的对比摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作 ...
【Java基础】String 相关知识点总结
String 相关知识点总结字符串的不可变性概述 String 被声明为 final,因此它不可继承在 Java8 中,String 内部使用 char 数组存储数据 public final ...
rem和css3的相关知识点
☆☆☆rem和css3的相关知识点☆☆☆ 一. Web front-end development engineer rem是根据页面的根元素的font-size的一个相对的单位,即 html{ fo ...
React其它相关知识点
React其它相关知识点一,解释一下React Fiber? 简单来说,核心就是在虚拟dom和浏览器的调用栈之间多了一个虚拟调用栈,和虚拟dom一样,这个虚拟调用栈也是在内存中的,这个虚拟调用栈就类 ...

随机推荐

heihei
adb shell screencap -p /sdcard/p1.pngadb pull /sdcard/p1.png c:\BaiduYunDownloadadb shell rm /sdcard ...
理解ASP.NET Core - 文件服务器(File Server)
注:本文隶属于<理解ASP.NET Core>系列文章,请查看置顶博客或点击此处查看全文目录提供静态文件静态文件默认存放在 Web根目录(Web Root) 中,路径为项目根目录(C ...
PWN二进制漏洞学习指南
目录 PWN二进制漏洞学习指南前言前置技能 PWN概念概述发音术语 PWN环境搭建 PWN知识学习途径常见漏洞安全机制 PWN技巧 PWN相关资源博客 Pwn菜鸡小分队 PWN二进制漏洞 ...
Canal 实战 | 第一篇：SpringBoot 整合 Canal + RabbitMQ 实现监听 MySQL 数据库同步更新 Redis 缓存
一. Canal 简介 canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同 ...
Java多线程之Atomic：原子变量与原子类
Atomic简介 Atomic包是java.util.concurrent下的另一个专门为线程安全设计的Java包,包含多个原子操作类这个包里面提供了一组原子变量类. 其基本的特性就是在多线程 ...
Jenkins执行 remote SSH 命令
1.安装 SSH Pipeline Steps 插件 2.在凭据中添加remote server凭据,如下 3.Pipeline编写: def GetRemoteServer(ip){ def rem ...
常见yaml写法-job
apiVersion: batch/v1 kind: Job metadata: name: job-demo spec: template: metadata: name: job-demo spe ...
动手写一个简单的Web框架（模板渲染）
动手写一个简单的Web框架(模板渲染) 在百度上搜索jinja2,显示的大部分内容都是jinja2的渲染语法,这个不是Web框架需要做的事,最终,居然在Werkzeug的官方文档里找到模板渲染的代码. ...
Python基础（@property）
class Point(object): # def get_score(self): # return self.score # def set_score(self,value): # if no ...
mui轮播图为什么设置了自动播放参数也不能自动播放呢？
最近在做项目的时候,发现Mui的轮播图遇到个问题,设置了自动播放但是怎么也不能自动播放,这是为什么呢? 原来如果动态给mui的图片轮播添加图片,又使用的ajax获取的数据,但是你ajax 还没有执行完 ...

Hadoop 相关知识点（二）