Distributed File System

数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。 通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。 容错。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失。 分布式文件管理系统很多,hdfs只是其中一种。适用于一次写入多次查询的情况,不支持并发写情况,小文件不合适。

Namenode

是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。(见源码)

    意思就是说我们的文件和目录是 有一些描述信息的,比如到底是文件还是目录,他的权限,他的副本数,他的尺寸,他的创建时间,他的最后一次修改时间,他的最后一次访问时间,包括你他的属组等等,全部都是他的元数据信息,这些也是放在NameNode中的。

    我们还说过在HDFS中,对文件的管理是数据块的形式,一个文件被划分成了很多的数据块,这些文件块和文件的对应关系也是在NameNode中,想象,NameNode维护了这么多的信息,那么说明它是非常重要的。我们对文件系统的操作,就是对这些东西的操作。如果你不知道这些东西,你怎么操作这个系统呢?就跟我们的window系统一样,我们也就是点来点去的,我们可以创建文件夹,创建文件,删除文件夹,删除文件,查看等等等等,这些都是对文件目录树的操作,对他们的元数据信息的操作。

    它还会接收用户的操作请求,什么操作请求呢,就是我们用的那些hdfs命令 ,就是用户的操作请求。换句话说,我们在这里做的这些查看 ,创建文件夹,上传,下载,阅读等等,都是通过通过namenode来访问。

    那么既然它维护这么多的信息,那么它的信息放在哪 里呢。进入hadoop目录,里面有个文件夹tmp,我们进入到tmp,里面还有俩文件夹,dfs和mapred,里面 还有3个文件夹,data,name,namesecondary,我们进入到name中,这个name文件夹 就代表及namenode存放数据的路径,里面有个current目录,进入之后,可以看到4个文件,edits,fsimage,fstime,VERSION,,这4个文件分别表示不同的含义,这4个文件中有两个最核心的文件,一个是fsimage,一个是edits,fsimage代表的是文件系统镜像,里面存放的就是维护整个文件系统的目录树需要的信息,文件/目录的元信息和每个文件对应的数据块列表。

    它是相当重要的。也是是说我们整个hdfs文件系统全仰仗着fsimage管理。那么说这个文件丢了,整个hdfs文件系统也就down了,这么重要,这么办呢,我们可以做个备份。我们可以让hadoop读写数据的时候,可以同时向多个fsimage中读写,这样就有安全可言了。我们该如何去配置呢,在配置文件中可以去配置,我们进入conf文件夹,然后编辑core-site.xml,我们在文件中看到了这样一句注释<!--Put site-specific property overrides in this file-->。所以我们去源码中,找到hdfs.default.xml,它里面也有一句注释<Do not modify this file directly.Instead,copy entire that you wish to modify from this file into hdfs-site.xml and change them there.If hdfs-site.xml does not already exist,create it.>,从这两句注释可以看出来,这个配置文件原来就有,里面的值都是默认值,而在/conf目录下的配置文件只是对这个文件进行修改而已,overrides 体现了这个意思。大家会不会有这样的疑惑,系统中已经有他的配置文件,我现在呢再进行覆盖,拿系统是这么加载的呢,如果有这个疑问的话,想象Struts2那个框架,我们在项目中有一个配置文件, strust.xml,他里面有一个标签叫<package> 这个标签后面有个数据 expend,strust-default,那个配置文件在Struts2的jar中的,我们在项目中写的配置文件也是覆盖他 ,这里的意思和他是类似的。

    在配置文件中找到这一项,里面${hadoop.tmp.dir}类似于el表达式,程序执行的时候会解析他,替换成值,

    <property>

      <name>dfs.name.dir</name>

      <value>${hadoop.tmp.dir}/dfs.name,/...,/...</value>

    </property>

    在实际生产中,fsimage的副本最好放在不同的硬盘上

文件包括: fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。

edits:操作日志文件。

    edits存放的是操作日志文件,也就是说我们用户的操作,增删改操作。edits存这些东西的意义:我们用hdfs存放数据都是存放大数据, 大数据的传输都是很耗时的,如果我们用put命令把文件上传到hdfs 过程中,出现网络中断, 那么就会造成传输失败,那么失败,有的文件时会传一半,那么这些传了一半的文件到底是在hdfs中,被用户看到还是不应该看到,应该不能被看到吧。那么怎么样做 这个事情呢。如果正儿八经的上传成功了,用户就应该看到,这个又是怎么做的呢。所以应该考虑叫做事务的东西,事务这个词表示的就是一系列操作,要么全部成功,要么全部失败,edits就是保存用户操作事务的一个东西。举个例子,比如100G的文件,每写一个数据块,我们就在我们的这个日志文件中写一个记录。如果全部写完的话,那么最后写一个上传完毕,如果 操作失败的话,这个日志就不会出现上传完毕的那个记录。,就代表没有成功,就会,把这个事务中的操作全删掉,也就是回滚。用户就看不到了。

    如果全部上传成功的话,就会让用户看到,那么我们看到的数据来自哪里,来自fsimage,不是来自edits, 但是我们用户的上传操作信息都是写在edits,那么edits中的数据这么就到了fsimage了呢,还有一个问题随着用户的上传edits会变得越来越大,如何处理edits文件越来越庞大的问题呢。是这样,edits中的文件如何转移到fsimage,他是通过另一个节点,secondarynamenode,他是干啥的,他只有一个功能,就是把namenode中edits的数据合并到fsimage中,所以他是从NameNode上下载元数据信息    (fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits.    

    为什么要用secondarynode来做,namenode自己做不行吗,是这样,我们的namenode是接受用户操作请求的,用户的操作是不能等待的,只能让他越快越好, 所以把fsimage中的信息全部存放 在内存中,意味着内存占用会越来越大,就不应该再进行合并操作,因为合并也战很大内存,否则会使内存占用非常严重,用户操作相应就变慢,所以不自己做交给secondarynode做。

    也就是说我们的edits文件是定期合并到fsimage中,那么定期是什么意思,定期指的是是checkpoint,检查点,共有两个。一个是我们间隔某一段时间(3600s)的时候,我们进行合并一次,还有一个,当我们没有达到3600是,但是我们的edits文件大小超过了64M,此时也进行合并。同时也可以看出,文件大小检查点的优先级高于时间检查点。

这两个设置可以在default.core.xml文件中找到。

    <property>

      <name>fs.checkpoint.period</name>

      <value>3600</value>

    </property>

    <property>

      <name>fs.checkpint.size</name>

      <value>64M转换</value>

    </property>

fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中。

hdfs笔记的更多相关文章

  1. HDFS笔记——技术点汇总

    目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...

  2. HDFS笔记(一)

    1. HDFS 是什么? Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System) 2. HDFS 架构 ...

  3. 【Hadoop】HDFS笔记(三):HDFS的Shell操作

    HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令 键入命令"./bin/hadoop fs"将输 ...

  4. 【Hadoop】HDFS笔记(二):HDFS的HA机制和Federation机制

    HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...

  5. 【Hadoop】HDFS笔记(一):Hadoop的RPC机制

    RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...

  6. HDFS笔记(二)

    fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...

  7. 学习笔记—MapReduce

    MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...

  8. Hadoop1.x HDFS系统架构

    1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...

  9. HDFS Federation (读书笔记)

    HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和 块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

  1. c#的listview控件添加表头

    https://zhidao.baidu.com/question/2139827392221340388.html

  2. 两个Vue Demo

    1 实现 person list <!DOCTYPE html> <html> <head> <meta charset="UTF-8"& ...

  3. ios - 工具类

    这几天看项目,把俺旁边小哥哥的一个工具类相中了,希望对大家有所帮助哦~~~~~~~~~ // // PLZ_Tool.h // // Created by penglaizhi on 2017/7/3 ...

  4. Bzoj2882 工艺 [线性算法]

    后缀自动机题解 -> http://www.cnblogs.com/SilverNebula/p/6420601.html 后缀自动机敲完,看了下排行,wc为什么别人跑得这么快?……是诶,这最小 ...

  5. LOJ#2083. 「NOI2016」优秀的拆分

    $n \leq 30000$的字符串,问其所有子串的所有AABB形式的拆分有多少种.$t \leq 10$组询问. $n^3$过80,$n^2$过95,鬼去写正解.. $n^2$:先枚举一次算每个位置 ...

  6. Eclipse配置关联Tomcat并运行项目

    打开Eclipse,单击“Window”菜单,选择最下方的“Preferences”. 单击“Server”选项,选择下方的“Runtime Environments”. 点击“Add”添加Tomca ...

  7. jenkins 管理员账号丢失

    在jenkins 设置权限后,无法登录 参考: 如何修改jenkins配置权限   https://zhidao.baidu.com/question/497256501658876284.html

  8. asp.net mvc 5 利用ActionFilterAttribute实现权限过滤

    关于c#属性的教程:http://www.runoob.com/csharp/csharp-attribute.html 在asp.net mvc5中,可以利用ActionFilterAttribut ...

  9. ansible-playbook启动的多种方式

    #quick start ## start the playbook with no password, it will run "sudo su - root" at the t ...

  10. 初学Docker容器网络不得不看的学习笔记

    一.关于Docker Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从Apache2.0协议开源. Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级.可移植的容器中,然后 ...