Namenode

1、namenode是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。

2、文件操作:namenode负责对元数据的操作,datanode负责处理文件内容的读取请求,跟文件内容相关的数据流读取操作不会经过namenode,只会询问它跟哪个datanode联系,否则namenode会成为系统的瓶颈。

3、副本存放在哪些datanode上由namenode来控制,根据全局情况做成块放置决定,client读取文件时namenode尽量让用户先读取最近的副本,降低带宽消耗和读取延迟。

4、Namenode全权管理数据块的复制,它周期性的从集群中的每个datanode接受心跳信号和块的报告(balockreport)。接收心跳信号意味着该datanode节点工作正常,块的报告包含了一个datanode上包含所有块的列表。

Datanode

1、一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、块数据的校验和以及时间戳。

2、Datanode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。

3、心跳是每3秒一次,心跳返回结果带有namenode给该datanode命令如复制数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个datanode的心跳,则认为该节点不可用。

4、集群中可以安全的加入和退出一些机器,而不影响集群整体运作。

文件

1、文件切分成块(hadoop 2.x默认大小128m),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)。

2、Namenode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表以及块所在的datanode等等。

3、Datanode在本地文件系统存储文件块数据,以及块数据的校验和。

4、可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。

数据损坏(corruption)处理

1、当datanode读取block的时候,它会计算checksum

2、如果计算后的chencksum与block创建时的值不一样,说明该block已经损坏。

3、Client读取其他datanode上的block。

4、Namenode标记该块已经损坏,然后复制block达到预期设置的文件备份数。

5、Datanode在其文件创建后三周验证其checksum

HDFS Shell命令

1、调用文件系统(FS)Shell命令使用bin/hdfs dfs的形式

2、所有的FS Shell命令使用URI路径作为参数

3、URI格式是shemale://authority/path.HDFS的schema是hdfs,对于本地文件系统schema是file,其中schema和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认schema

4、例如:/parent/child可以表示成hdfs://namenode:namenodePort/parent/child

5、大多数FS Shell命令行为和对应的Linux Shell命令相似

HDFS架构详解-非官档的更多相关文章

  1. hadoop之hdfs架构详解

    本文主要从两个方面对hdfs进行阐述,第一就是hdfs的整个架构以及组成,第二就是hdfs文件的读写流程. 一.HDFS概述 标题中提到hdfs(Hadoop Distribute File Syst ...

  2. hdfs架构详解(防脑裂fencing机制值得学习)

    HDFS(Hadoop Distributed File System)是一个分布式文件存储系统,几乎是离线存储领域的标准解决方案(有能力自研的大厂列外),业内应用非常广泛.近段抽时间,看一下 HDF ...

  3. hdfs文件系统架构详解

    hdfs文件系统架构详解 官方hdfs分布式介绍 NameNode *Namenode负责文件系统的namespace以及客户端文件访问 *NameNode负责文件元数据操作,DataNode负责文件 ...

  4. Hyperledger Fabric架构详解

    区块链开源实现HYPERLEDGER FABRIC架构详解 区块链开源实现HYPERLEDGER FABRIC架构详解 2018年5月26日 陶辉 Comments 10 Comments hyper ...

  5. 领域驱动设计(Domain Driven Design)参考架构详解

    摘要 本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces.Applications和Domain三层以及包含各类基础设施的Infrast ...

  6. WeChatAPI 开源系统架构详解

    WeChatAPI 开源系统架构详解 如果使用WeChatAPI,它扮演着什么样的角色? 从图中我们可以看到主要分为3个部分: 1.业务系统 2.WeChatAPI: WeChatWebAPI,主要是 ...

  7. hadoop hdfs uri详解

    body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

  8. [转载]领域驱动设计(Domain Driven Design)参考架构详解

    摘要 本文将介绍领域驱动设计(Domain Driven Design)的官方参考架构,该架构分成了Interfaces.Applications和Domain三层以及包含各类基础设施的Infrast ...

  9. NopCommerce源码架构详解--初识高性能的开源商城系统cms

    很多人都说通过阅读.学习大神们高质量的代码是提高自己技术能力最快的方式之一.我觉得通过阅读NopCommerce的源码,可以从中学习很多企业系统.软件开发的规范和一些新的技术.技巧,可以快速地提高我们 ...

随机推荐

  1. Java实现两个变量的互换(不借助第3个变量)

    创建一个类,在该类中定义两个变量并为其指定初始值,然后交换两个变量的值,要求不允许借助第三个变量,只能使用异或运行实现两个变量值的交换. import java.util.Scanner; publi ...

  2. logback -- 配置详解 -- 三 -- <encoder>

    附: logback.xml实例 logback -- 配置详解 -- 一 -- <configuration>及子节点 logback -- 配置详解 -- 二 -- <appen ...

  3. TCP三次握手原则

    “已失效的连接请求报文段”的产生在这样一种情况下: client发出的第一个连接请求报文段并没有丢失,而是在某个网络结点长时间的滞留了,以致延误到连接释放以后的某个时间才到达server. 本来这是一 ...

  4. 文件完整性hash验证demo(python脚本)

    一个简单的文件完整性hash验证脚本 #!/usr/bin/env python # -*- coding: utf- -*- import os import hashlib import json ...

  5. urllib 简介

    (1) urllib 是 Python 内置的 HTTP 请求库,用来向服务器发送 HTTP 请求(2) 在 Python2.x 中,有 urllib 和 urllib2 两个模块:在 Python3 ...

  6. [XPath] XPath 与 lxml (三)XPath 坐标轴

    本章我们将沿用上一章的 XML 示例文档. XPath 坐标轴 坐标轴用于定义当对当前节点的节点集合. 坐标轴名称 含义 ancestor 选取当前节点的所有先辈元素及根节点. ancestor-or ...

  7. 第十七篇:IO复用之select实现

    前言 在看过前文:初探IO复用后,想必你已对IO复用这个概念有了初步但清晰的认识. 接下来,我要在一个具体的并发客户端中实现它(基于select函数),使得一旦服务器中的客户进程被终止的时候,客户端这 ...

  8. 说说UART(转)

    串口协议基础 1 串口概述 串口由收发器组成.发送器是通过TxD引脚发送串行数据,接收器是通过RxD引脚接收串行数据.发送器和接收器都利用了一个移位寄存器,这个移位寄存器可以将数据进行“并转串”和“串 ...

  9. C++ template —— trait与policy类(七)

    第15章 trait与policy类---------------------------------------------------------------------------------- ...

  10. 自定义 Core Data 迁移

    本文转载至 http://objccn.io/issue-4-7/ 感谢本文作者 朱宏旭 的不啬分享 自定义 Core Data 迁移似乎是一个不太起眼的话题.苹果在这方面只提供了很少的文档,若是初次 ...