Hadoop学习篇 2 初识 Hadoop

在一个全配置的集群上，运行Hadoop意味着在网络分布的不同服务器上运行一组守护进程（daemons)，这些守护进程或运行在单个服务器上，或运行与多个服务器上，他们包括:

(1) NameNode（名字节点）

(2) DataNode（数据节点）

(3) Secondary NameNode （次名节点）

(4) JobTracker （作业跟踪节点）

(5) TaskTracker (任务跟踪节点）

NameNode

被认为是Hadoop守护进程中最重要的一个，可以说，NameNode就是一个大脑。

运行NameNode会消耗掉大量的内存和I/O资源，因此，为了减轻机器的负载，驻留NameNode的服务器一般不会负责MapReduce的计算、存储用户数据。这也意味着，NameNode不会和JobTracker\TashTracker存在于同一台服务器上。一旦NameNode服务器出现宕机，造成的影响一般会比较严重。

DataNode

每个集群的从节点上都会驻留一个DataNode的守护进程，来执行分布式文件系统的繁重工作——将HDFS数据快读取或写入到本地文件系统的实际文件中。当希望对HDFS文件进行读写时，文件被分割为多个块，有NameNode告知客户端每个数据块驻留在那个DataNode。客户端直接与DataNode守护进程进行通信，来处理与数据块对相对应的本地文件。DataNode与DataNode节点直接也可以直接进行通信，用于完成数据的复制。

上图解释了NameNode和DataNode节点的作用，NameNode指明了数据存放的名称和位置，分别为/user/chuck/data1 下的1、2、3文件和存储在 /user/james/data2下的

4、5文件。四个DataNode实现了1、2、3、4、5文件的复制。确保了任何一个DataNode节点失败后任然可以正常工作。DataNode会不断的向NameNode节点报告，将当前节点存储的数据块告知NameNode,为之提供本地修改的相关信息，同时接受指令的创建、移动或删除本地磁盘上的数据块。

Secondary NameNode

JobTracker

jobtracker守护进程是Hadoop和应用程序之间的纽带，一旦代码提交到集群上，JobTracker就会执行确定的任务，包括决定处理哪些文件，为不同的任务分配节点以及监控所有任务的运行，如果任务失败，jobTracker将会自动重启任务，但是所分配的节点可能会不同。

每个Hadoop集群只有一个JobTracker守护进程，他通常运行在服务器的主节点上。

TaskTracker

下面的图形描述了一个Hadoop集群的拓扑结构，这是一个主/从结构，特点是主节点上运行NameNode和JobTracker,而从节点上运行DataNode和TaskTracker。并使用独立的节点运行SSN,以防止主节点运行失败。

了解了以上信息，我们来关注一下Hadoop的NameNode和JobTracker究竟分别执行什么样的功能？

1、从存储角度来理解：集群是由一个Namenode和若干datanode组成，而secondary作为Namenode的一个备份

2、从应用的角度来理解：集群中的节点是由jobtracker和若干tasktracker组成，jobtracker负责任务的调度，而tasktracker则是负责任务的执行。因此，tasktracker是运行在datanode的，而Namenode和jobtracker则无需在同一机器上面

Hadoop学习篇 2 初识 Hadoop的更多相关文章

Hadoop学习笔记(1) 初识Hadoop
1. Hadoop提供了一个可靠的共享存储和分析系统.HDFS实现存储,而MapReduce实现分析处理,这两部分是Hadoop的核心. 2. MapReduce是一个批量查询处理器,并且它能够在合理 ...
Hadoop学习1（初识hadoop）
Hadoop生态系统的特点 1)源代码开源 2)社区活跃,参与者多 3)涉及分布式存储和计算的各方面 4)已得到企业界的验证 Hadoop构成 1) 分布式文件系统HDFS(Hadoop Distri ...
Hadoop学习总结之五：Hadoop的运行痕迹
Hadoop学习总结之五:Hadoop的运行痕迹 Hadoop 学习总结之一:HDFS简介 Hadoop学习总结之二:HDFS读写过程解析 Hadoop学习总结之三:Map-Reduce入门 Ha ...
大数据学习笔记之初识Hadoop
1.Hadoop概述 1.1 Hadoop名字的由来 Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名 Hadoop的官网:http://hadoop.apache.org . 1.2 ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop学习1—浅谈hadoop
大数据这个词越来越热,本人一直想学习一下,正巧最近有时间了解一下.先从hadoop入手,在此记录学习中的点滴. 什么是hadoop? What Is Apache Hadoop? The Apache ...
Hadoop学习之Ubuntu12.04 Hadoop 环境搭建笔记
SSH无密码配置 Hadoop在Ubuntu12.04上搭建环境报错及问题 SSH无密码配置参考:Linux(Centos)配置OpenSSH无密码登陆注意问题: Hadoop集成环境三台机器都 ...
hadoop学习笔记--找到执行hadoop的入口
参与个hadoop项目,之前没搞过,赶紧学习: 照葫芦画瓢,得到代码是hdfs2local.sh脚本和LiaoNingFilter.jar包,迫不及待用jd-gui打开jar包,搜索到main(在MA ...
hadoop学习通过虚拟机安装hadoop完全分布式集群
要想深入的学习hadoop数据分析技术,首要的任务是必须要将hadoop集群环境搭建起来,可以将hadoop简化地想象成一个小软件,通过在各个物理节点上安装这个小软件,然后将其运行起来,就是一个had ...

随机推荐

[学习笔记] 七步从AngularJS菜鸟到专家（4和5）：指令和表达式 [转]
这一篇包含了＂AngularJS - 七步从菜鸟到专家＂系列的第四篇(指令)和第五篇(表达式). 之前的几篇展示了我们应用的核心组件,以及如何设置搭建一个Angular.js应用.在这一部分,我们会厘 ...
Linux/UNIX脚本中 $0,$1,$2的含义
linux中有三种标准输入输出,分别是STDIN,STDOUT,STDERR,对应的数字是0,1,2. STDIN就是标准输入,默认从键盘读取信息: STDOUT是标准输出,默认将输出结果输出至终 ...
wav文件格式分析（一）
(一)概述 WAV为微软公司(Microsoft)开发的一种声音文件格式,它符合RIFF(Resource Interchange File Format)文件规范: (二)音频知识 1.常见的声音文 ...
Vmware Vsphere WebService SDK开发（第一讲）-基本知识学习
刚开始这方面开发的时候,不知道如何下手,能够查到的资料特别少,而且看到很多网友和我一样也在找这方面的资料.接下来的一段时间我就结合自己所参与的项目,完成关于Vmware Vsphere WebServ ...
Knockout学习之模板绑定器
模板绑定器如今页面结构越来越复杂,仅仅依靠foreach已经不足以我们的使用,这个时候我们就需要模板的存在,模板的优点自然很多,首先会让页面整洁,同时修改起来也可以方面的定位,最重要的是ko可以条件 ...
从CLR角度来看值类型与引用类型
前言本文中大部分示例代码来自于<CLR via C# Edition3>,并在此之上加以总结和简化,文中只是重点介绍几个比较有共性的问题,对一些细节不会做过深入的讲解. 前几天一直忙着翻 ...
WPF快速入门系列(4)——深入解析WPF绑定
一.引言 WPF绑定使得原本需要多行代码实现的功能,现在只需要简单的XAML代码就可以完成之前多行后台代码实现的功能.WPF绑定可以理解为一种关系,该关系告诉WPF从一个源对象提取一些信息,并将这些信 ...
[游戏学习27] MFC 匀速运动
>_<:理解上一个时间函数的概念和用法,本节的实现也比较简单 >_<:就是简单的绘图+时间函数 >_<:TicTac.h #define EX 1 //该点左鼠标 ...
ios 常用第三方库要加的framework，ARC的设置
一,常用第三方库要加的framework 1,SQLite3数据库:FMDatabase 需要添加:libsqlite3.dylib 2,网络请求:ASIHTTPRequest 需要添加:CFNetw ...
C语言实现快速排序
我觉得冒泡排序是比较简单的: 所以今天我们实现一个叫做快速排序的: Problem 你想要将(4,3,5,1,2)排序成(1,2,3,4,5) 你决定使用最简单的快速排序: Solution 首先,打 ...

Hadoop学习篇 2 初识 Hadoop

Hadoop学习篇 2 初识 Hadoop的更多相关文章

随机推荐

热门专题