1、HDFS分布式文件系统

分布式存储
分布式计算

2、hadoop

hadoop含有四个模块，分别是 common、 hdfs和yarn。

common

公共模块。
HDFS

hadoop distributed file system，hadoop分布式文件系统，负责文件的存储管理。HDFS包括Namenode进程、DataNode进程和Secondary Namenode进程。
1. NameNode
2. DataNode
3. Secondary Namenode
mapreduce

高度抽象的编程模型，包括映射和化简两个阶段，是大数据计算技术的基础。
yarn

资源调度框架，完成在job执行时，进行集群整体资源的调配管理的。集群中所有资源的配置都有ResourceManager完成。

HA

High availability，系统提供持续服务的能力，通常使用9的个数来衡量，例如5个9就是指99.999%。

high availability,高可用问题。

衡量系统持续提供服务的能力。通常使用几个9衡量。

99.999%					//折合一年可以宕机5分钟

99.9999%				//折合一年可以宕机5分钟

hadoop部署模式

1.local

	不会启动任何进程。

2.pesudo

	一个节点启动所有进程(5).

3.full

	在不同节点启动不同进程。

4.HA模式

	active(宕机) + standby(待命)

webui

http://namenode:50070/

http://2nn:50090/

http://datanode:50075/

hadoop

start-all.sh

start-dfs.sh

start-yarn.sh

hadoop-daemon.sh start namenode

hadoop-daemons.sh start datanode

副本的放置策略(273)

不同的hadoop版本，对副本的放置策略也不用。

机架感知

按照ip地址返回网络拓扑树形结构/a/b/c/xxx | /a/b/c/xxx

网络拓扑距离

每个节点到达共同交换机的跃点数的总和。

zookeeper

协同服务,HA服务支持。

容灾能力 : (n - 1) / 2

奇数.

namenode配置多个目录

每个目录下的内容相同，用于备份。

datanode配置多个目录

每个目录下的内容不同，用于扩容。

spark

hadoop

1.配额管理

	1.1)空间配额

		限制

	1.2)目录配额

		限制目录或文件的个数

		hdfs dfsadmin -setQuota 1 data2			//1保持目录为空

		hdfs dfsadmin -clsQuota data2			//1保持目录为空

2.快照

	瞬间照相(差异化存储)。

3.OIV

	offline image viewer,离线镜像查看器

	fsimage(元数据)

4.OEV

	offline edit viewer,离线编辑日志查看器。

	edit存放的对dfs的操作过程。

镜像控制(检查点)

[hdfs-site.xml]

1.dfs.namenode.checkpoint.period=3600

	两次检查点的时间间隔.

2.操作记录数=1000,000

	操作记录超过该值，也会导致检查点的创建。

	dfs.namenode.checkpoint.txns

3.检查周期(默认60)

	dfs.namenode.checkpoint.check.period=60

4.设置检查点文件个数,默认是2

	dfs.namenode.num.checkpoints.retained=2

5.手动融合镜像文件(需要安全模式)

	hdfs dfsadmin -safemode enter

	hdfs dfsadmin -saveNamespace

	hdfs dfsadmin -safemode leave

6.从client可以下载镜像文件

	//下载集群的镜像文件到当前目录下

	hdfs dfsadmin -fetchImage .

metasave

保存块复制信息等和datanode的心跳信息到日志文件。

该日志文件在namenode的本地logs下。

hdfs dfsadmin -metasave 1.log

安全模式

hdfs dfsadmin -safemode get			//查看

hdfs dfsadmin -safemode enter		//进入

hdfs dfsadmin -safemode leave		//退出

hdfs dfsadmin -safemode wait		//等待

快照

//启用快照

hfds dfsadmin -allowSnapshot data

//禁用快照

hfds dfsadmin -disallowSnapshot data

//创建快照

hdfs dfs -createSnapshot data sp1

//删除

hdfs dfs -deleteSnapshot data sp1

//重命名

hdfs dfs -renameSnapshot data sp1 sp2

删除目录时，如果是可快照目录并且有快照，无法删除，需要

先删除快照再删除目录。

旧节点退役(datanode下线)

1.描述

	hdfs的datanode下线由dfs.hosts.exclude属性控制，yarn的nodemanager下线

	由yarn.resourcemanager.nodes.exclude-path控制。

2.dfs.hosts.exclude

	配置datanode黑名单文件路径名，名单中的节点不允许连接到nn。如果该属性不配置，

	所有节点都可以连接。

3.dfs.hosts

	配置datanode白名单文件路径名，名单中的节点允许连接到nn。如果该属性不配置，

	所有节点都可以连接。

4.规则

		dfs.hosts		dfs.host.exlucde		result

	---------------------------------------------------

		NO					NO					Not

		NO					YES					Not

		YES					NO					Yes

		YES					YES					Yes并将退役

5.退役实操

	5.0)准备黑白名单

		dfs_exclude.conf

		dfs_include.conf

	5.1)配置hdfs-site.xml的黑白名单属性

		<property>

				<name>dfs.hosts</name>

				<value>/soft/hadoop/etc/full/dfs_include.conf</value>

		</property>

		<property>

				<name>dfs.hosts.exclude</name>

				<value>/soft/hadoop/etc/full/dfs_exclude.conf</value>

		</property>

	5.2)添加退役节点地址到黑名单，不要更新白名单

		[dfs_exclude.conf]

		s102

	5.3)刷新nn

		hdfs dfsadmin -refreshNodes

	5.4)进入webui，查看退役的节点是否显式为"退役中"，开始复制数据块到其他节点。

	5.5)一旦复制完成，状态显式"Decommissioned",停止退役节点

	5.6)从白名单中删除退役节点

		s103

		s104

		s106

	5.7)再次刷新节点

		hdfs dfsadmin -refreshNodes

	5.8)从slaves中删除退役节点

		s103

		s104

		s106

新节点上线(datanode)

1.准备环境

	克隆新虚拟机

	配置ssh

	删除本地临时目录

2.实操过程

	2.1)添加新地址到白名单

		s103

		s104

		s106

		s102

		[删除黑名单记录]

	2.2)刷新名称节点

		hdfs dfsadmin -refreshNodes

	2.3)更新slaves文件

		s103

		s104

		s106

		s102

	2.4)启动新节点的datanode进程

		[s102]

		hadoop-daemon.sh start datanode

	2.5)检查webui

旧节点下线(nodemanager)

1.描述

	hdfs的datanode下线由dfs.hosts.exclude属性控制，yarn的nodemanager下线

	由yarn.resourcemanager.nodes.exclude-path控制。

2.dfs.hosts.exclude

	配置datanode黑名单文件路径名，名单中的节点不允许连接到nn。如果该属性不配置，

	所有节点都可以连接。

3.dfs.hosts

	配置datanode白名单文件路径名，名单中的节点允许连接到nn。如果该属性不配置，

	所有节点都可以连接。

4.规则

		dfs.hosts		dfs.host.exlucde		result

	---------------------------------------------------

		NO					NO					Not

		NO					YES					Not

		YES					NO					Yes

		YES					YES					Yes并将退役

5.退役实操

	5.0)准备黑白名单

		yarn_exclude.conf

		yarn_include.conf

	5.1)配置yarn-site.xml的黑白名单属性

		<property>

				<name>yarn.resourcemanager.nodes.include-path</name>

				<value>/soft/hadoop/etc/full/yarn_include.conf</value>

		</property>

		<property>

				<name>yarn.resourcemanager.nodes.exclude-path</name>

				<value>/soft/hadoop/etc/full/yarn_exclude.conf</value>

		</property>

	5.2)添加退役节点地址到黑名单，不要更新白名单

		[yarn_exclude.conf]

		s102

	5.3)刷新nn

		yarn rmadmin -refreshNodes

	5.4)进入webui，查看退役的节点是否显式为"退役中"，开始复制数据块到其他节点。

		http://rm:8088/

	5.5)一旦复制完成，状态显式"Decommissioned",停止退役节点

	5.6)从白名单中删除退役节点

		[yarn-include.conf]

		s103

		s104

		s106

	5.7)再次刷新节点

		yarn rmadmin -refreshNodes

	5.8)从slaves中删除退役节点

		s103

		s104

		s106

1、HDFS分布式文件系统的更多相关文章

HDFS分布式文件系统资源管理器开发总结
HDFS,全称Hadoop分布式文件系统,作为Hadoop生态技术圈底层的关键技术之一,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式 ...
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情 ...
Hadoop HDFS分布式文件系统常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
认识HDFS分布式文件系统
1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问.数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理. (3)文件采用一次性写多次读的模型, ...
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...
大数据基础总结---HDFS分布式文件系统
HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...
hdfs(分布式文件系统)优缺点
hdfs(分布式文件系统) 优点支持超大文件支持超大文件.超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件.一般来说hadoop的文件系统会存储TB级别或者PB级别的数据.所以在企业的应 ...
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪 ...

随机推荐

POJ1056 IMMEDIATE DECODABILITY & POJ3630 Phone List
题目来源:http://poj.org/problem?id=1056 http://poj.org/problem?id=3630 两题非常类似,所以在这里一并做了. 1056题目大意: 如果一 ...
Gym - 101615J Grid Coloring DP 2017-2018 ACM-ICPC Pacific Northwest Regional Contest (Div. 1)
题目传送门题目大意: 给出n*m的网格,有红蓝两种颜色,每个格子都必须被染色,当一个格子被染成蓝色后,这个格子左上方的一块都必须被染成蓝色,问最后的方案数量. 思路: 按照题目条件,如果有一个格子被 ...
Experimental Educational Round: VolBIT Formulas Blitz D
Description After a probationary period in the game development company of IT City Petya was include ...
python3 continue和break 区别
for i in range(10): if i==5: continue #跳出当次循环 if i==8: break #跳出整个for循环 print(i)
5.SpringMVC
1.SpringMVC概述概述: SpringMVC是基于请求驱动,围绕一个核心Servlet 转发请求到对应的Controller而设计的优点:是一个典型的教科书式的MVC构架,易学易用提供了清晰 ...
sqoop数据校验
sqoop数据校验 # check data oracle_cnt=$(sqoop eval \ -Dmapred.job.queue.name=${queue} \ --connect ${conn ...
C#学习 - 关于Interlocked.CompareExchange()的用法
https://blog.csdn.net/jianhui_wang/article/details/80485517 Interlocked.CompareExchange有一组函数名称说明 ...
SUSE12Sp3安装配置.net core 生产环境（2）-安装.NET Core 2.2.1 runtime 并运行.NET代码
1.安装libicu依赖 1.在线安装 sudo mkdir /usr/local/dotnet #创建目录 cd /usr/local/dotnet sudo wget https://downlo ...
inode与block知识总结
inode概述:硬盘要分区,然后格式化,创建文件系统在每个Linux存储设备的分区被格式化为ext3文件系统后一般有两个部分: 第一部分Inode:存储这些数据的属性信息(大小,属主,归属的用户 ...
java——斗地主小游戏之洗牌发牌
遇到的问题: 1.int和Integer的区别? 1)Integer是int的包装类,int则是java的一种基本数据类型 . 2)Integer变量必须实例化后才能使用,而int变量不需要 . 3) ...

1、HDFS分布式文件系统

1、HDFS分布式文件系统

2、hadoop

HA

hadoop部署模式

webui

hadoop

副本的放置策略(273)

机架感知

网络拓扑距离

zookeeper

namenode配置多个目录

datanode配置多个目录

spark

hadoop

镜像控制(检查点)

metasave

安全模式

快照

旧节点退役(datanode下线)

新节点上线(datanode)

旧节点下线(nodemanager)

1、HDFS分布式文件系统的更多相关文章

随机推荐

热门专题