Hadoop体系结构

　　在前面的博文中，我已经介绍过Hadoop的基本概念了（见博文初识Hadoop），今天来介绍一下Hadoop的体系结构。

　　Hadoop的两大核心是HDFS和MapReduce，而整个Hadoop的体系结构主要是通过HDFS来实现分布式存储的底层支持的，并且它会通过MapReduce来实现分布式并行任务处理的程序支持。下面我就分别介绍一下HDFS和MapReduce的体系结构。

1. HDFS体系结构

　　HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中Namenode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；而集群中的DataNode主要承担管理存储的数据的任务。

　　HDFS允许用户已文件的形式存储数据。从内部来看，文件被分成若干个数据块，而且这若干个数据块存放在一组DataNode上。Namenode执行文件系统的命名空间操作，比如打开、关闭、重命名等，同时它也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写请求，并在Namenode的统一调度下进行数据块的创建、删除和复制操作。其体系结构图如下所示。

　　一个典型的部署场景是集群中的一台机器运行一个Namenode实例，其他机器分别运行DataNode实例。当然，并不排除一台机器运行多个DataNode实例的情况。集群中单一Namenode的设计大大简化了系统的架构，Namenode是所有HDFS元数据的管理者，用户需要保存的数据不会经过Namenode，而是直接流向存储数据的DataNode。

2. MapReduce体系结构　　

　　MapReduce是一种并行编程模式，利用这种模式软件开发者可以轻松地开发出分布式并行程序。在Hadoop体系结构中MapReduce是一个简单易用的软件框架，基于它可以将任务分发到上千台商用机器组成的集群上，并以一种可靠容错的方式并行处理大量的数据集，实现Hadoop的并行任务处理功能。

　　MapReduce框架是由一个单独运行在主节点的JobTracker和运行在每个集群从节点的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务，这些任务分部在不同的从节点上。主节点监控它们的运行情况，并且负责重新执行之前失败的任务；从节点仅负责由主节点指派的任务。当一个Job被提交的时候，JobTracker接受到提交的作业和其配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行。

　　从上面的介绍可以看出，HDFS和MapReduce共同组成了Hadoop分布式系统结构体系的核心。HDFS在集群上实现了分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件的操作和存储等操作，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互协调。共同完成了Hadoop分布式集群的任务。

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！

Hadoop体系结构的更多相关文章

Hadoop体系结构杂谈
hadoop体系结构杂谈今天跟一个朋友在讨论hadoop体系架构,从当下流行的Hadoop+HDFS+MapReduce+Hbase+Pig+Hive+Spark+Storm开始一直讲到HDFS的底 ...
Hadoop学习笔记（一）——Hadoop体系结构
HDFS和MapReduce是Hadoop的两大核心. 整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,而且通过MapReduce来实现分布式并行任务处理的程序支持. 一.HD ...
Hadoop体系结构之 HDFS
HDFS采用主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的(在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一 ...
Hadoop体系结构管理
一.查看Zookeeper信息 [hadoop@weekend01 ~]$zkServer.sh status JMX enabled by default Using config: /hadoop ...
Hadoop体系结构之 Yarn
1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManage ...
Hadoop体系结构之 Mapreduce
MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成.主节点负责调度构成一个作业的所有任务,这些任务分布在不同的不同的从节点上.主节点监视它 ...
Hadoop 之面试题
颜色区别: 蓝色:hive,橙色:Hbase.黑色hadoop 请简述hadoop怎样实现二级排序．你认为用Java,Streaming,pipe 方式开发map/reduce,各有哪些优缺点: 6 ...
Hadoop 概述
Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 HDFS 分布式文件系统和 MapReduce 分布式计算框架为核心,为用户提供底层细节透明的分布式基础设施.目前,Hadoop ...
Hadoop概述
本章内容什么是Hadoop Hadoop项目及其结构 Hadoop的体系结构 Hadoop与分布式开发 Hadoop计算模型—MapReduce Hadoop的数据管理小结 1.1 什么是Hado ...

随机推荐

django model中get()和filter()方法的区别
django的get()方法是从数据库的取得一个匹配的结果,返回一个对象,如果记录不存在的话,它会报错. django的filter()方法是从数据库的取得匹配的结果,返回一个对象列表,如果记录不存在 ...
jQuery bootstrap框架下重置下拉框选择
前端页面中下拉选择框采用bootstrap-select美化,如下图:
关于ng-class中添加多个样式类的解决方案
想要达到ng-class的效果,有两种写法 1.class=“{{class}} class1 class2” 2.ng-class="{true: 'active', false: 'in ...
bzoj 2626: JZPFAR k-D树
题目大意: 平面上n个点,每次给出一个点,求这个点的k远点题解: 什么叫做k远点呢... 1 2 3 4 5中5是第一远,4是第二远... 看来我语文学的不好那么我们直接上k-D Tree求k邻近 ...
python爬虫知识点总结（五）正则表达式
在线正则表达式匹配:http://tool.oschina.net/regex 正则表达式学习:https://c.runoob.com/front-end/854 一.什么是正则表达式? 常见匹配模 ...
ffmpeg 合并文件
ffmpeg文件合并文件1.ts~ 100.ts 流媒体文件1.txt 格式 file .ts file .ts ... file .ts 命令 (-vcodec copy -acodec ...
细说ASP.NET Forms身份认证别人写的不过很透彻就转来了以后用时再看
阅读目录开始 ASP.NET身份认证基础 ASP.NET身份认证过程如何实现登录与注销保护受限制的页面登录页不能正常显示的问题认识Forms身份认证理解Forms身份认证实现自定义的身份 ...
POJ-2718
Smallest Difference Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 12158 Accepted: 3 ...
qpython 读入数据问题： EOF error with input / raw_input
直接使用input会报错 EOF error with input / raw_input 原因是在qpy里console mode 命令行模式不是完全和pc上的命令行一致,所以input和raw_i ...
SEO优化之——rel=canonical(整合重复页)
用法一如图所示有三个页面,三个页面的访问路径都不一样,但是现实的内容page2和page3显示的内容和page1一样,这时候在三个page中分别都加入了<link res="can ...

Hadoop体系结构

Hadoop体系结构的更多相关文章

随机推荐

热门专题