HDFS笔记（一）

1. HDFS 是什么？

Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）

2. HDFS 架构

首先HDFS是一个分布式文件系统，就是说在一个集群上做了一个文件系统。一般的集群都是主从结构。namenode是主，datenode是从。

我们来看一下这几个概念

Client：就是客户端。

1、文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

2、与 NameNode 交互，获取文件的位置信息。

3、与 DataNode 交互，读取或者写入数据。

4、Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

5、Client 可以通过一些命令来访问 HDFS。

NameNode：就是 master，它是一个主管、管理者。

1.管理者文件系统命名空间

--维护着文件树及树中的所有文件和目录

2.存储元数据

--namenodde 保存元信息的种类有

文件名目录名及它们之间的层级关系

文件目录和所有者及其权限

每个文件块和名及文件有哪些块组成

注：元数据保存在内存中

namenode元信息并不包含每个块的位置信息

3.保存文件，block，datanode 之间的映射关系

4.配置副本策略

5.处理客户端读写请求

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

1.负责存储实际的数据块，负责为系统客户端提供数据块的读写服务

2.根据NameNode 的指示进行创建、删除和复制等操作

3.心跳机制，定期报告文件块列表信息

4.datanode之间进行通信，块的副本处理

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

1、辅助 NameNode，分担其工作量。

2、定期合并 fsimage和fsedits，并推送给NameNode。

3、在紧急情况下，可辅助恢复 NameNode。

3. HDFS上传流程

过程解析：

这里描述的是一个256M的文件上传过程

① 由客户端向 NameNode节点节点发出请求

② NameNode 向Client返回可以可以存数据的 DataNode 这里遵循 机架感应 原则

③ 客户端首先根据返回的信息先将文件分块（Hadoop2.X版本每一个block为 128M 而之前的版本为 64M）

④ 然后通过那么Node返回的DataNode信息直接发送给DataNode 并且是流式写入同时会复制到其他两台机器

⑤ dataNode 向 Client通信表示已经传完数据块同时向NameNode报告

⑥ 依照上面（④ 到 ⑤）的原理将所有的数据块都上传结束向 NameNode 报告表明已经传完所有的数据块

这样整个HDFS上传流程就走完了

HDFS笔记（一）的更多相关文章

HDFS笔记——技术点汇总
目录 · 概况 · 原理 · HDFS 架构 · 块 · NameNode · SecondaryNameNode · fsimage与edits合并 · DataNode · 数据读写 · 容错机制 ...
hdfs笔记
Distributed File System 数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文 ...
【Hadoop】HDFS笔记（三）：HDFS的Shell操作
HDFS处理文件的命令和Linux命令差不多,但注意区分大小写. (Linux区分大小写,Windows不区分大小写) 一.fs命令键入命令"./bin/hadoop fs"将输 ...
【Hadoop】HDFS笔记（二）：HDFS的HA机制和Federation机制
HA解决了HDFS的NameNode的单点问题: Federation解决了整个HDFS集群中只有一个名字空间,并且只有单独的一个NameNode管理所有DataNode的问题. 一.HA机制(Hig ...
【Hadoop】HDFS笔记（一）：Hadoop的RPC机制
RPC(Remote Procedure Call, 远程过程调用)主要面对两个问题: 1.对象调用方式: 2.序列/反序列化机制. Hadoop实现的RPC组件依赖于Hadoop Writable类 ...
HDFS笔记（二）
fsimage : NameNode启动时,对文件系统的快照 eidt logs : NameNode启动后,对文件系统的改动序列 namenode在全局里就一个进程,所以存在单点问题 DataNod ...
学习笔记—MapReduce
MapReduce是什么 MapReduce是一种分布式计算编程框架,是Hadoop主要组成部分之一,可以让用户专注于编写核心逻辑代码,最后以高可靠.高容错的方式在大型集群上并行处理大量数据. Map ...
Hadoop1.x HDFS系统架构
1. HDFS中的一些概念1.1 数据块1.2 NameNode和DataNode1.2.1 管理者:Namenode1.2.1 工作者:Datanode1.3 Secondary Namenode1 ...
HDFS Federation (读书笔记)
HDFS Federation (读书笔记) HDFS的架构 HDFS包含两个层次:命名空间管理(Namespace) 和块/存储管理(Block Storage). 命名空间管理(Namespac ...

随机推荐

SQL中 like 通配符特殊字符处理
以下是一些匹配的举例,需要说明的是,只有like操作才有这些特殊字符,=操作是没有的.a_b... a[_]b%a%b... a[%]b%a[b... a[[]b%a]b... a]b%a[]b... ...
poj 2559(栈的应用)
传送门参考资料: [1]:挑战程序设计竞赛题意: 柱状图是由一些宽度相等的长方形下端对齐后横向排列得到的图形.现在有由n个宽度为1,高度分别为h[1,2,3.......n]的长方形从左到右依次排 ...
postman接口测试
拿到API,直接拖到postman里面,修改一下params,send之后查看结果返回说明一下: 1.get的内容,写入测试URL 和API地址 2.点击bulkEdit,编辑请求的key+valu ...
HTML学习笔记Day13
一.HTML+CSS代码实现三角形 (一)transparent透明属性实现代码编写三角 <!DOCTYPE html> <html> <head> <met ...
storm集群配置
环境:centos6.4软件:jzmq-master-----java与c++通讯的桥梁,有了它,就可以使用zeromp了storm-0.8.2zeromq-2.1.7-----号称史上最牛逼的消息队 ...
LightGBM 调参方法（具体操作）
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Scoring and Modeling—— Underwriting and Loan Approval Process
https://www.fdic.gov/regulations/examinations/credit_card/ch8.html Types of Scoring FICO Scores V ...
16.Linux-LCD驱动(详解)
在上一节LCD层次分析中,得出写个LCD驱动入口函数,需要以下4步: 1) 分配一个fb_info结构体: framebuffer_alloc(); 2) 设置fb_info 3) 设置硬件相关的操作 ...
MySQL中的主键，外键有什么作用详解
MySQL中的主键,外键有什么作用详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 学关系型数据库的同学,尤其在学习主键和外键时会产生一定的困惑.那么今天我们就把这个困惑连根拔起 ...
git中tag的使用
1.获取tags $ git tag 2.新建tag 有记录信息 $git tag -a releases-1.0.1 -m 'add i.sh file.' 没有记录信息 $git tag ...

HDFS笔记（一）

HDFS笔记（一）的更多相关文章

随机推荐

热门专题