Hadoop自学笔记（二）HDFS简单介绍

1. HDFS Architecture

一种Master-Slave结构。包括Name Node, Secondary Name Node,Data Node Job Tracker, Task Tracker。JobTrackers: 控制全部的Task Trackers 。这两个Tracker将会在MapReduce课程里面具体介绍。以下具体说明HDFS的结构及其功能。

Name Node:控制全部的Data Node。

存储了整个文件系统的信息。

全部新建文件，删除，拷贝等，都会在此更新。存储了Block Mapping.

Secondary Name Node：简单来说，是Name Node的一个备份。

Data Node: 真实进行全部操作的地方。比方一个用户要读取一份文件。用户会先和NameNode沟通，然后Name Node告诉用户这份文件在哪一个Data Node上面，然后用户从此Data Node中读取。Data Node还负责拷贝数据（当然也要报告Name Node）。

上述四个部分能够放到一台机器上面，也能够分别放在不同机器上面。

HDFS特征：

数据丢失保护：每份数据都会存储好几份。默认3份。

假设丢失一个block，能够从其它备份中恢复。假设丢失整个Rack，可是因为同一个数据的备份不会存储到同一Rack。因此也能够恢复。

相同，假设从一个Rack内部读取数据要比跨Rack读取数据速度更快，HDFS会首先试图从一个Rack读取全部所需数据，这个能够称为Rack Awareness。相同这样同一时候获得了可靠的数据存储，以及高数据吞吐量。

2. HDFS Internals

Name Node: 内存中存储了全部文件名称，备份数。以及文件所在的block id。另一个Edit Log，用于存储操作日志，当机器重新启动的时候，会生成一个FsImage文件，整合了Edit Log文件里的内容，相当于把内存持久化。

重新启动后再读取到内存中。

用户读写文件都是和Name Node交互。从Name Node中获取数据存储的Blocks，然后从对应的Block读取出文件。

Secondary Name Node: 为了防止Name Node奔溃或者丢失。

每小时把Name Node中的Edit Log读取过来，然后生成FsImage，等Name Node丢失后。能够用于恢复。

Data Node: 直接和Name Node进行交互。其实。Name Node并不和Data Node进行交互，也不和Secondary Name Node交互，而是后二者主动和Name Node进行交互。

Data Node每3秒钟向Name Node报告一次。假设10秒钟没报告，就觉得是出问题了，開始进行恢复操作。每个Block默认大小是64M. 这样能够保证在大文件的情况下，Name Node不会太庞大，并且提升读取速度。

Block越大，Name Node中的metaData越小。

每个Block有id,同一份block（备份）的id相同，例如以下图。存储在不同的rack上面。

并且还会把相同一份文件的block放到尽量相近的位置便于读写操作。假设时间长了Blocks的位置混乱了，能够使用rebalancing 工具来又一次排序使其恢复到最优位置。

每隔3秒钟Data Node就会向Name Node报告自己的Blocks，Data Node内部包括了一个Block Scanner用来汇报。假设Name Node发现有block备份多了，就删除；假设发现某一block备份不足，就将该任务放到一个队列中，这个队列依照优先级来复制备份不足的block。备份最少的block优先级最高。

3. HDFS interaction

Ubuntu里面能够依照例如以下图所看到的输入命令，然后与HDFS进行交互，其命令大部分和Shell命令一样。叫FS Shell。除了Shell以外。另一个Web UI用来交互。

假设想知道每个命令能够去google搜索Hadoop Command Guide，然后就能够找到这些命令的具体使用方法。

Hadoop自学笔记（二）HDFS简单介绍的更多相关文章

HDFS简单介绍及用C语言訪问HDFS接口操作实践
一.概述近年来,大数据技术如火如荼,怎样存储海量数据也成了当今的热点和难点问题,而HDFS分布式文件系统作为Hadoop项目的分布式存储基础,也为HBASE提供数据持久化功能,它在大数据项目中有很广 ...
Hadoop自学笔记（一）常见Hadoop相关项目一览
本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述自学笔记,难免有各类错误 ...
Hadoop学习笔记： HDFS
注:该文内容部分来源于ChinaHadoop.cn上的hadoop视频教程. 一. HDFS概述 HDFS即Hadoop Distributed File System, 源于Google发表于200 ...
Hadoop学习笔记(2)-HDFS的基本操作(Shell命令)
在这里我给大家继续分享一些关于HDFS分布式文件的经验哈,其中包括一些hdfs的基本的shell命令的操作,再加上hdfs java程序设计.在前面我已经写了关于如何去搭建hadoop这样一个大数据平 ...
JMeter自学笔记2-图形界面介绍
一.写在前面的话: 上篇我们已经学会了如何安装JMeter和打开JMeter,那么这篇我们将对JMeter的图形界面做一个简单的介绍.大家只要简单的了解即可,无需死记硬背,在今后的学习和使用中慢慢熟悉 ...
学习笔记-React的简单介绍&工作原理
一.React简单介绍 1.React起源于Facebook内部项目,与2013年5月 2.是一个用于构建用户界面的JavaScript库二.React特点 1.声明式设计-React采用声明范式, ...
how tomcat works 读书笔记(二)----------一个简单的servlet容器
app1 (建议读者在看本章之前,先看how tomcat works 读书笔记(一)----------一个简单的web服务器 http://blog.csdn.net/dlf123321/arti ...
Hadoop集群(二) HDFS搭建
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper ...
python自学笔记(二)
通过前文介绍,大体上可以用学过的知识做一些东西了. 这里简单介绍下python参数解析argparse命令. 使用argparse需要引用 import argparse 然后调用 parser = ...
[Docker]学习笔记－－简单介绍
学习docker已经有一段时间了,一直没有静下心来好好总结一下. 最近用docker搭了一整套Gitlab的持续集成环境.(会在下一篇中详细的讲解具体步骤,敬请期待) 感觉是时候写点东西和大家一起分享 ...

随机推荐

raspberry-同路由器用putty和vnc桌面登录方法
一个raspberry B,家里电脑是win10系统. 最初是用HDMI连家里电视机的显示屏来当桌面的,没有配置就好用,但第二次再开机发现怎么弄都显示无信号,排除SD卡不活动.HDMI接口被烧坏等可能 ...
[Javascript] 轻量级的JavaScript日期处理类库xDate使用指南
XDate是一个请谅解的JavaScript的原生Date对象的封装库,提供增强的功能解析,格式化和日期处理.使用起来就和JavaScript自己的对象和方法一样,非常简单. XDate是一个请谅解的 ...
[Javascript] 5个最佳的Javascript日期处理类库
在大家日常网站开发和web应用开发中,我们往往需要有效的调用Javascript处理日期和时间格式相关的函数,在Javascript中已经包含了部分最基本的内建处理方法. 在大家日常网站开发和web应 ...
c语言return与exit的区别
2013-09-0918:54:33 exit函数在头文件stdlib.h中,函数原型: void exit(int status); exit(0) 正常运行程序并退出程序. exit(1) 非正常 ...
使用数组实现ArrayList的效果
package day04.d2.shuzu; /** * 通过数组实现类似于集合的功能 * 包含功能有: * * 动态添加元素 * 在指定位置添加元素 * * 删除指定下标的元素 * 删除指定内容的 ...
jTemplates的教程，包括{#if}{#foreach}{#for}的简单使用
最近在做一些局部刷新的分页工作,一般不使用既成的插件的话,就是在脚本里面重新渲染一个局部的html,把需要局部分页的模块重写一遍,还需要在控制器里再定义一个方法返回所需的局部数据,这种做法相当冗余,所 ...
mybatis 高级映射和spring整合之与Spring整合（6）
mybatis 高级映射和spring整合之mybatis与Spring整合 3.0 mybatis和spring整合(掌握) 3.1 整合思路需求spring通过单例方式管理SqlSessionF ...
Android 微信分享与QQ分享功能
微信分享与QQ分享功能现在都挺常见的,可以根据一些第三方社会化分功能快速实现,不过多多少少都不怎么纯净,最好都是自己看官方文档来实现就最好了~ 一.微信分享微信分享功能需要先在微信开放平台注册应用并 ...
javaweb 之代理模式
一.动态代理 1.1.代理模式什么是代理模式及其作用 Proxy Pattern(即:代理模式),23种常用的面向对象软件的设计模式之一代理模式的定义:为其他对象提供一种代理以控制对这个对象的访问 ...
Struts2框架学习(二)——访问流程及架构
1.Struts2的执行流程从客户端发送请求过来,先经过前端控制器(核心过滤器StrutsPrepareAndExecuteFilter)过滤器中执行一组拦截器(一组拦截器就会完成部分功能代码),拦 ...

Hadoop自学笔记（二）HDFS简单介绍

Hadoop自学笔记（二）HDFS简单介绍的更多相关文章

随机推荐

热门专题