hadoop知识点总结（二）hdfs分布式文件系统

1, hdfs设计：减少硬件错误的危害，流式数据访问，大规模数据集，简单的一致性模型

2，特点：

1）移动计算的代价比移动数据的代价低

在异构的软硬件平台间的可移植性

2）局限性

不适合低延迟性数据访问。可使用Hbase解决。

不能高效存储小文件。对NameNode压力大。

不支持多用户写入及任意修改文件。只能进行对文件的追加操作。

3，基本概念

1）块：操作系统中的文件块大小为几千字节，而磁盘块的大小为512KB.

HDFS中的块是一个抽象概念，一般系统默认为64M

使用抽象块的好处：

可存储任意大的文件而不会受到网络中任一单个节点磁盘大小的限制

使用抽象块作为操作的单元可以简化存储子系统

块有利于分布式文件系统中复制容错的实现

2）NameNode与DataNode

NameNode

管理文件系统的命名空间

记录每个文件数据块在各个DataNode上的位置和副本信息

协调客户端对文件的访问

记录命名空间内的改动或空间本身属性的改动

使用事务日志记录HDFS元数据的变化。使用映像文件存储文件系统的命名空间，包括文件映射，文件属性等

DataNode

负责所在物理节点的存储管理

一次写入，多次读取（不修改）

文件由数据块组成，典型的块大小是64MB

数据块尽量散布到各个节点

4. HDFS读写数据流程

1) DataNode

客户端要访问HDFS中的一个文件

首先从NameNode获得组成这个文件的数据块位置列表

根据列表知道存储数据块的DataNode

访问DataNode获取数据

NameNode并不参与数据实际传输

5, HDFS可靠性

可以在hdfs-site.xml中设置复制因子指定副本数量

所有数据块都有副本

DataNode启动时，遍历本地文件系统，产生一份HDFS数据块和本地文件的对应关系列表（blockreport）汇报给NameNode

6,机架策略

集群一般放在不同机架上，机架间带宽要比机架内带宽要小 HDFS的“机架感知” ，一般在本机架存放一个副本，在其它机架再存放别的副本，这样可以防止机架失效时丢失数据，也可以提高带宽利用率

7，心跳机制

1) NameNode周期性从DataNode接收心跳信号和块报告

2) NameNode根据块报告验证元数据

3) 没有按时发送心跳的DataNode会被标记为宕机，不会再给它任何I/O请求

4) 如果DataNode失效造成副本数量下降，并且低于预先设置的阈值，NameNode会检测出这些数据块，并在合适的时机进行重新复制

5) 引发重新复制的原因还包括数据副本本身损坏、磁盘错误，复制因子被增大等

8 校验和

在文件创立时，每个数据块都产生校验和

校验和会作为单独一个隐藏文件保存在命名空间下

客户端获取数据时可以检查校验和是否相同，从而发现数据块是否损坏

如果正在读取的数据块损坏，则可以继续读取其它副本

9，回收站

删除文件时，其实是放入回收站/trash ，回收站里的文件可以快速恢复，可以设置一个时间阈值，当回收站里文件的存放时间超过这个阈值，就被彻底删除，并且释放占用的数据块

10，元数据保护

映像文件和事务日志是NameNode的核心数据。可以配置为拥有多个副本，副本会降低NameNode的处理速度，但增加安全性。NameNode依然是单点，如果发生故障要手工切换

11，HDFS文件操作常用命令：

选项名称使用格式含义

-ls -ls <路径> 查看指定路径的当前目录结构

-lsr -lsr <路径> 递归查看指定路径的目录结构

-du -du <路径> 统计目录下个文件大小

-dus -dus <路径> 汇总统计目录下文件(夹)大小

-count -count [-q] <路径> 统计文件(夹)数量

-mv -mv <源路径><目的路径> 移动

-cp -cp<源路径> <目的路径> 复制

-rm -rm [-skipTrash] <路径> 删除文件/空白文件夹

-rmr -rmr [-skipTrash] <路径> 递归删除

-put -put <多个linux上的文件> <hdfs路径> 上传文件

-copyFromLocal -copyFromLocal <多个linux上的文件><hdfs路径> 从本地复制

-moveFromLocal -moveFromLocal <多个linux上的文件><hdfs路径> 从本地移动

-getmerge -getmerge <源路径> <linux路径> 合并到本地

-cat -cat <hdfs路径> 查看文件内容

-text -text <hdfs路径> 查看文件内容

-copyToLocal -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径] 从本地复制

-moveToLocal -moveToLocal [-crc] <hdfs源路径> <linux目的路径> 从本地移动

-mkdir -mkdir <hdfs路径> 创建空白文件夹

-setrep -setrep [-R] [-w] <副本数> <路径> 修改副本数量

-touchz -touchz <文件路径> 创建空白文件

-stat -stat [format] <路径> 显示文件统计信息

-tail -tail [-f] <文件> 查看文件尾部信息

-chmod -chmod [-R] <权限模式> [路径] 修改权限

-chown -chown [-R] [属主][:[属组]] 路径修改属主

-chgrp -chgrp [-R] 属组名称路径修改属组

-help -help [命令选项] 帮助

简化hadoop命令，在用户根目录下 vi.bashrc

在最后添加：

aliasfs='hadoop fs' # 定义一个别名，简单化名字

aliasfsa='hadoop dfsadmin'

执行source .bashrc即可生效

fs-ls

fs-mkdir input

fsa-safemode leave

等等命令

hadoop知识点总结（二）hdfs分布式文件系统的更多相关文章

hadoop系列（二）分布式文件系统HDFS
根据core-site.xml的配置,接下来就可以通过:hdfs://localhost:9000来对hdfs进行操作了. 1.创建输入目录 C:\WINDOWS\system32>hadoop ...
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...
Hadoop HDFS分布式文件系统常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪 ...
HDFS分布式文件系统资源管理器开发总结
HDFS,全称Hadoop分布式文件系统,作为Hadoop生态技术圈底层的关键技术之一,被设计成适合运行在通用硬件上的分布式文件系统.它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式 ...
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情 ...
认识HDFS分布式文件系统
1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问.数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理. (3)文件采用一次性写多次读的模型, ...
1、HDFS分布式文件系统
1.HDFS分布式文件系统分布式存储分布式计算 2.hadoop hadoop含有四个模块,分别是 common. hdfs和yarn. common 公共模块. HDFS hadoop dist ...
HDFS 分布式文件系统
博客出处W3c:https://www.w3cschool.cn/hadoop/xvmi1hd6.html 简介 Hadoop Distributed File System,分布式文件系统架构 B ...

随机推荐

强化学习 1 --- 马尔科夫决策过程详解（MDP）
强化学习 --- 马尔科夫决策过程(MDP) 1.强化学习介绍强化学习任务通常使用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述,具体而言:机器处在一个环境 ...
PO，BO，VO，DTO，POJO，DAO，DO是什么？
PO (Persistent Object) 持久化对象,表示实体数据.BO (Business Object) 业务对象,主要是把逻辑业务封装为一个对象 .VO (Value/Vi ...
Spring源码深度解析之数据库连接JDBC
Spring源码深度解析之数据库连接JDBC JDBC(Java Data Base Connectivity,Java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供 ...
wdCP V3.2
wdCP是什么?关于wdCP更多的介绍,可看http://www.wdlinux.cn/wdcp/安装前先去体验下,看演示站吧http://www.wdlinux.cn/bbs/thread-5285 ...
Linux 设置静态IP
由于工作需要,安装一套Linux系统.安装完成后发现这个家伙居然不能上网,然后看了下IP,(命令 ip a)发现是127.0.0.1 下面是我的界面: inet 是127.0.0.1/8 还有6个网卡 ...
Es5数组新增的方法及用法
1.forEachforEach是Array新方法中最基本的一个,就是遍历,循环.例如下面这个例子: [1, 2 ,3, 4].forEach(alert);等同于下面这个传统的for循环: var ...
牛客网NC15二叉树的层次遍历
题目给定一个二叉树,返回该二叉树层序遍历的结果,(从左到右,一层一层地遍历) 例如: 给定的二叉树是{3,9,20,#,#,15,7}, 该二叉树层序遍历的结果是 [ [3], [9,20], [1 ...
cookie和session会话技术
因为http协议是无状态的,也就是说每个客户端访问服务器端资源时,服务器并不知道该客户端是谁,所以需要会话技术识别客户端状态.会话技术是帮助服务器记住客户端状态的. 一次会话的开始是通过浏览器访问某个 ...
GMT UTC CST ISO 夏令时时间戳，都是些什么鬼？
目录 ✍前言本文提纲版本约定 ✍正文 GMT:格林威治时间凭什么格林威治作为标准时间? 地球自转中国有哪几个时区? 美国有哪几个时区? GMT和Http协议的渊源 UTC:世界标准时间 UTC ...
使用yaml来实现ingress-nginx
创建一个ingress-nginx [root@k8s-master ingress]# cat ingress-nginx.yaml apiVersion: v1 kind: Namespace m ...

hadoop知识点总结（二）hdfs分布式文件系统

hadoop知识点总结（二）hdfs分布式文件系统的更多相关文章

随机推荐

热门专题