带您详细解读分布式文件系统HDFS

一、HDFS的由来：

本地系统：一个节点作为系统，以前数据是存放在本地文件系统上的，但本地文件系统存在两个问题：1、本地节点存储容量不够大；2、本地节点会坏，数据不够安全。这时，人们开始利用闲置的计算机组成了分布式系统，分布式系统是用计算机网络将多个节点联系起来组成一个逻辑上统一的系统。

分布式系统的三大特点：

1、物理分布性，可靠性好；

2、逻辑整体性：对内可以是零散的，但对外必须是一个整体；

3、节点自治性：可靠性高。

现在数据是存放在分布式文件系统上的，分布式文件系统的好处：1、理论上存储容量无穷大，只要服务器数量足够多，解决了硬盘容量不够大的问题；2、通过水平复制实现数据备份功能，解决了硬盘会坏，数据不够安全的问题，因此Google的GFS论文就这样诞生了，Google公司大量使用普通PC机作为服务器，PC机上去掉机箱、外设和硬盘，Doug Cutting则借鉴了GFS论文，实现了HDFS并贡献了apache基金会。

二、HDFS的体系结构：

（1）Namenode：名称节点

1、管理HDFS

2、接收客户端的请求：上传文件、下载文件等

3、创建日志（edits文件），记录所有针对HDFS的操作，保存HDFS的最近操作

注：edits文件记录自最后一次检查点之后所有针对HDFS的操作，比如：增加文件、删除文件等。

保存目录：$HADOOP_HOME/tmp/dfs/name/current

HDFS提供了离线日志查看器（oev）查看edits文件，默认将edits文件转化成xml文件：

hdfs oev -i edits文件 -o xml文件路径

4、保存文件元信息，将内存中不常用的（采用LRU算法：最近最少使用算法）文件元信息保存到磁盘中形成fsimage文件。

注：文件元信息包含文件名、文件大小、文件存放路径、数据块个数、数据块位置。

fsimage文件记录自最后一次检查点之前HDFS中所有文件的元信息（序列化信息），序列化的作用：进程间通信和永久存储。

保存目录：$HADOOP_HOME/tmp/dfs/name/current

HDFS提供了离线镜像查看器（oiv）查看fsimage文件，默认将fsimage文件转化成txt文件

hdfs oiv -i fsimage文件 -o txt文件路径

（2）Datanode：数据节点

1、以数据块为单位保存数据

hadoop1.x数据块大小：64M

hadoop2.x数据块大小：128M

hadoop3.x数据块大小：256M

保存目录：$HADOOP_HOME/tmp/dfs/data/current

（3）SecondaryNamenode：第二名称节点

1、定期进行edits文件和fsimage文件的合并，更新fsimage文件

发生的时机：当HDFS发出检查的时候：1、检查周期：每隔一小时 2、检查大小：edits文件是否达到64M

三、HDFS存在的问题：

1、Namenode单点故障

hadoop1.x：没有解决方案

hadoop2.x：借助zookeeper实现hadoop的HA功能

2、Namenode压力过大且内存有限，影响HDFS存储效率

hadoop1.x：没有解决方案

hadoop2.x：使用HDFS的联盟实现Namenode的水平扩展

四、HDFS的高级特性：

1、HDFS的回收站（Recycle bin）：默认是关闭的，可以通过修改core-site.xml文件打开回收站

<name>fs.trash.interval</name>

</property>

注：一天后自动清空回收站，百度网盘十天后自动清空回收站

2、HDFS的快照（Snapshot）：默认是禁用的，快照是某个目录在某一时刻的镜像。

快照的作用：

1、防止用户错误操作

2、备份

3、试验

4、灾难恢复

启用某个目录的快照：hdfs dfsadmin -allowSnapshot /mydir

禁用某个目录的快照：hdfs dfsadmin -disallowSnapshot /mydir

创建这个目录的快照：hdfs dfs -createSnapshot mydir1_backup_01

删除这个目录的快照：hdfs dfs -deleteSnapshot mydir1_backup_01

重命名这个目录的快照：hdfs dfs -reanameSnapshot mydir1_bakcup_01

（创建快照的本质：将目录复制到当前目录中的.snapshot隐藏目录下）

3、HDFS的配额（quota）：

1、名称配额：规定某个目录下存放文件的个数，实际个数n-1个

2、空间配额：规定某个目录下存放文件的大小，最小配置128M

4、HDFS的安全模式：只读模式

作用：保护数据块的安全性

过程：当集群启动时首先进入安全模式，检查数据块的副本率（默认副本率：0.999），当副本率不满足要求时，少了：水平复制，多了：删除冗余，副本率=实际副本数/设置副本数。

5、HDFS的权限管理：默认是开启的，可以通过修改hdfs-site.xml文件关闭权限管理

<name>dfs.permissions</name>

<value>false</value>

</property>

作者：李金泽AllenLi，清华大学硕士研究生，研究方向：大数据和人工智能

带您详细解读分布式文件系统HDFS的更多相关文章

大数据技术原理与应用——分布式文件系统HDFS
分布式文件系统概述相对于传统的本地文件系统而言,分布式文件系统(Distribute File System)是一种通过网络实现文件在多台主机上进行分布式存储的文件系统.分布式文件系统的设计一般采用 ...
你想了解的分布式文件系统HDFS，看这一篇就够了
1.分布式文件系统计算机集群结构分布式文件系统把文件分布存储到多个节点(计算机)上,成千上万的计算机节点构成计算机集群. 分布式文件系统使用的计算机集群,其配置都是由普通硬件构成的,与用多个处理器 ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
Hadoop分布式文件系统--HDFS结构分析
转自:http://blog.csdn.net/androidlushangderen/article/details/47377543 HDFS系列:http://blog.csdn.net/And ...
【转载】Hadoop分布式文件系统HDFS的工作原理详述
转载请注明来自36大数据(36dsj.com):36大数据 » Hadoop分布式文件系统HDFS的工作原理详述转注:读了这篇文章以后,觉得内容比较易懂,所以分享过来支持一下. Hadoop分布式文 ...
大数据技术 - 分布式文件系统 HDFS 的设计
本章内容介绍下 Hadoop 自带的分布式文件系统,HDFS 即 Hadoop Distributed Filesystem.HDFS 能够存储超大文件,可以部署在廉价的服务器上,适合一次写入多次读取 ...
06_Hadoop分布式文件系统HDFS架构讲解
mr 计算框架假如有三台机器统领者master 01 02 03 每台机器都有过滤的应用程序移动数据 01机== 300M >mr 移动计算 java程序传递给各个机器(mr) ...
Hadoop分布式文件系统HDFS
HDFS的探究: HDFS HDFS是 Hadoop Distribute File System的缩写,是谷歌GFS分布式文件系统的开源实现,Apache Hadoop的一个子项目,HDFS基于流数 ...
对Hadoop分布式文件系统HDFS的操作实践
原文地址:https://dblab.xmu.edu.cn/blog/290-2/ Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核 ...

随机推荐

ActiveReports 报表控件V12新特性 -- 无需ETL处理，即可实现跨数据源分析数据
ActiveReports是一款专注于 .NET 平台的报表控件,全面满足 HTML5 / WinForms / ASP.NET / ASP.NET MVC / WPF 等平台下报表设计和开发工作需求 ...
wampserver的配置教程
对于初做PHP网站的朋友来说,第一步肯定是希望在自己电脑是搭建PHP环境,省去空间和上传的麻烦!但搭建环境也不是件容易的事情,特别是对于新手同学来说!因此在这里跟大家介绍我作为一名新手在使用的方便好用 ...
LeetNode 题解之Reverse Nodes in k-Group
1.题目描述 2.问题分析这个题本质上还是按照链表翻转的思路来解,只是需要添加一些细节判断. 3.代码 class Solution { public: ListNode* reverseKGrou ...
LeetCode 题解之Linked List Cycle II
1.题目描述 2.问题分析使用快慢指针方法判断链表是否有环,然后寻找环开始的节点. 3.代码 ListNode *detectCycle(ListNode *head) { if( head == ...
EntityFramework 贪婪加载与延迟加载以及资源回收
EntityFramework的资源回收 1) Using 内包含Entity的上下文关系,对俩表做Add操作,最好可以直接写一个 entity.SaveChanges(); 完成两张表的同时add操 ...
pychram使用技巧
1.代码添加断点点击对应行代码,按ctrl+F8,即可添加断点 2.查看内置函数的源码点击对应函数后按crtl+B
MySQL面试之说明myisam和innodb两种存储引擎的不同之处
1.事务的支持不同(innodb支持事务,myisam不支持事务) 2.锁粒度(innodb行锁应用,myisam表锁) 3.存储空间(innodb既缓存索引文件又缓存数据文件,myisam只能缓存索 ...
Mysql引擎innodb_pool的作用
innodb_buffer_pool的简介: InnoDB主索引是聚簇索引,索引与数据共用表空间,对于InnoDB而言,数据就是索引,索引就是数据.InnoDB缓存机制和MyISAM缓存机制的最大区别 ...
开源作业调度框架 - Quartz.NET - 实战使用2
纠正第一篇文章的一个错误代码. 下面是错误代码,这样并不能得知系统中是否已经存在该JobId //实例化一个作业Key对象,用于获取作业对象或判断是否存在作业时使用. JobKey jobKey = ...
Java集合和泛型
集合常用的集合有ArrayList,TreeSet,HashMap,HashSet. ArrayList 最常用的集合,每次插入都在后面追加元素. TreeSet 以有序状态保持并可防止重复.当你需 ...

带您详细解读分布式文件系统HDFS

带您详细解读分布式文件系统HDFS的更多相关文章

随机推荐

热门专题