HDFS--笔记】的更多相关文章

目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 · 数据完整性 · NameNode HA · NameNode Federation · HDFS Snapshots · 操作 · API 概况 1. 文件系统抽象类FileSystem a) 源码 public abstract class FileSystem extends Config…
1. HDFS 是什么? Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System) 2. HDFS 架构 首先HDFS是一个分布式文件系统,就是说在一个集群上做了一个文件系统.一般的集群都是主从结构.namenode是主,datenode是从. 我们来看一下这几个概念 Client:就是客户端. 1.文件切分.文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储.…
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失. 分布…
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令 键入命令"./bin/hadoop fs"将输出能够支持的命令列表. Usage: java FsShell [-ls <path>] [-lsr <path>] [-df <path>] [-du [-s] [-h] <path>] [-dus <path>] [-count [-q] <…
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(High Availability) 1.HA集群 HDFS 的高可用性(HA, High Availability)是为了解决集群不可用的问题引入的,集群不可用主要是宕机. NameNode 软硬件升级等导致的. HA 机制通过提供选择运行在同一集群中的一个热备用的"主/备"两个冗余 Name…
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类型支持.Writable接口要求每个实现类能将本类正确序列化与反序列化. Hadoop RPC使用java动态代理和反射机制,来实现对象调用.Client到Server的数据序列化与反序列化由Hadoop框架或用户自定制. 一.RPC实现流程 RPC简单说明就是:Hadoop = 动态代理 +定制二…
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNode有变化时,报告给 NameNode ,NameNode需要重写元数据信息,NameNode更新完毕后,会将变化记录在editlogs中. SecondNameNode 注:不是NameNode的备份 是为了考虑持久化到磁盘 SecondNameNode会设置检查点,发现NameNode的editl…
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. MapReduce的存储 MapReduce的数据是存储在HDFS上的,HDFS也是Hadoop的主要组成部分之一.下边是MapReduce在HDFS上的存储的图解 HDFS主要有Namenode和Datanode两部分组成,整个集群有一个Namenode和多个DataNode,通常每一个节点一个Data…
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1.4 HDFS的优缺点2. HDFS的架构2.1 HDFS架构之NameNode和DataNode2.2 Namenode和Secondary Namenode运行关系3. HDFS文件的读写流程3.1 HDFS文件的读取3.2 HDFS文件的写入 1. HDFS中的一些概念 HDFS(Hadoop…
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和 块/存储管理(Block Storage). 命名空间管理(Namespace) HDFS的命名空间包含目录.文件和块.命名空间管理是指命名空间支持对HDFS中的目录.文件和块做类似文件系统的创建.修改.删除.列表文件和目录等基本操作. 块/存储管理(Block Storage) 在块存储服务中包含两部分工作:块管理和物理存储.这是一个更通用的存储服务.其他的应用可以直接建…