大数据笔记（五）——HDFS的高级特性

一.HDFS的回收站: recyclebin

　　1.HDFS的回收站默认是关闭的

2.启用回收站：去core-site.xml配置

　　路径：/root/training/hadoop-2.7.3/etc/hadoop

<property>

    <name>fs.trash.interval</name>

    <value>1440</value>

</property>

3.配置完成后删除目录 hdfs dfs -rmr /folder1

日志：

18/02/26 23:08:03 INFO fs.TrashPolicyDefault: Namenode trash configu ration: Deletion interval = 1440 minutes, Emptier interval = 0 minut es.

Moved: 'hdfs://bigdata11:9000/folder1' to trash at: hdfs://bigdata11 :9000/user/root/.Trash/Current

本质：删除数据的时候，实际是一个ctrl+x操作

　　4.查看回收站：hdfs dfs -lsr /user/root/.Trash/Current

　　5.恢复：实际就是拷贝 hdfs dfs -cp /user/root/.Trash/Current/input/data.txt /input

　　6.清空：hdfs dfs -expunge

二.HDFS的快照 snapshot：备份

　　1.默认：HDFS的快照是禁用的

　　2.开启快照第一步：管理员开启某个目录的快照功能
　　[-allowSnapshot <snapshotDir>]
　　[-disallowSnapshot <snapshotDir>]

　　hdfs dfsadmin -allowSnapshot /aaa

　　3.第二步：使用HDFS的操作命令，创建快照

　　[-createSnapshot <snapshotDir> [<snapshotName>]]
　　[-deleteSnapshot <snapshotDir> <snapshotName>]
　　[-renameSnapshot <snapshotDir> <oldName> <newName>]

　　hdfs dfs -createSnapshot /aaa aaa_backup_01
　　日志：Created snapshot /aaa/.snapshot/aaa_backup_01
　　本质：将数据拷贝一份到当前目录的一个隐藏目录下

　　4.对比快照：hdfs snapshotDiff /aaa aaa_backup_01 aaa_backup_02

三.HDFS的配额：quota

　　1.名称配额: 规定某个目录下，存放文件（目录）的个数

　　实际的个数：N-1个
　　[-setQuota <quota> <dirname>...<dirname>]
　　[-clrQuota <dirname>...<dirname>]

　　hdfs dfs -mkdir /quota1
　　设置该目录的名称配额：3
　　hdfs dfsadmin -setQuota 3 /quota1

　　当我们放第三个文件的时候
　　hdfs dfs -put data.txt /quota1
　　

put: The NameSpace quota (directories and files) of directory /quota1 is exceeded: quota=3 file count=4

　　2.空间配额: 规定某个目录下，文件的大小
　　[-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>]
　　[-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>]

　　hdfs dfs -mkdir /quota2
　　设置该目录的空间配额是：10M
　　hdfs dfsadmin -setSpaceQuota 10M /quota2

　　正确的做法：hdfs dfsadmin -setSpaceQuota 130M /quota2

　　放一个小于10M的文件，会出错
　　

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.DSQuotaExceededException): The DiskSpace quota of /quota2 is exceeded: quota = 10485760 B = 10 MB but diskspace consumed = 134217728 B = 128 MB

　　注意：尽管数据不到128M，但是占用的数据块依然是128M
　　切记：当设置空间配额的时候，这个值不能小于128M

四.HDFS的权限

drwxr-xr-x - root supergroup 0 2018-02-26 23:30 /aaa

权限用户名组名文件目录

参考命令链接：http://blog.csdn.net/feeltouch/article/details/46538277

五.HDFS的安全模式

　　一种保护机制，用于保护数据块的安全性。

大数据笔记（五）——HDFS的高级特性的更多相关文章

C#可扩展编程之MEF学习笔记(五)：MEF高级进阶
好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...
大数据笔记（二十六）——Scala语言的高级特性
===================== Scala语言的高级特性 ========================一.Scala的集合 1.可变集合mutable 不可变集合immutable / ...
大数据笔记（十五）——Hive的体系结构与安装配置、数据模型
一．常见的数据分析引擎 Hive:Hive是一个翻译器,一个基于Hadoop之上的数据仓库,把SQL语句翻译成一个 MapReduce程序.可以看成是Hive到MapReduce的映射器. Hive ...
大数据 --> 分布式文件系统HDFS的工作原理
分布式文件系统HDFS的工作原理 Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.它能提供高吞吐量的数 ...
大数据入门第六天——HDFS详解
一.概述 1.HDFS中的角色 Block数据: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是 ...
大数据基础总结---HDFS分布式文件系统
HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...
《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
大数据笔记01：大数据之Hadoop简介
1. 背景随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
大数据小白系列——HDFS(4)
这里是大数据小白系列,这是本系列的第四篇,来看一个真实世界Hadoop集群的规模,以及我们为什么需要Hadoop Federation. 首先,我们先要来个直观的印象,这是你以为的Hadoop集群: ...

随机推荐

HTTP 常见相应状态码及含义
1xx:信息 100 Continue 服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求. 101 Switching Protocols 服务器转换协议:服务器将 ...
pyhton之解析html的表格
#!/usr/bin/env python3 # -*- coding: utf-8 -*- __author__ = 'jiangwenwen' from bs4 import BeautifulS ...
P1067多项式输出
这道题是2009普及组的题,仍然是一个字符串+模拟.(蒻到先不刷算法) 这道题的题干给了很多的提示,也很全面,但是当我把种种情况都考虑到了后,在写代码的过程中仍然出现了很多的错误,wa了三四次.其实导 ...
图——图的Floyd法最短路径实现
1,Dijkstra 算法一次性求得起始顶点到所有其它顶点的最短路径,如果想要求解任意两个顶点之间的最短路径,可将图中顶点作为起始顶点执行 n 次 Dijkstra 算法就可以了: 2,可能解决方案: ...
Python 入门之流程控制语句
Python 入门之流程控制语句 1.if判断 (1) 单 if if –-如果 if 条件: 缩进结果 (官方推荐4个空格,或者一个tab 不能空格和tab混合使用) money = 10 pri ...
Prometheus快速入门
Prometheus是一个开源的,基于metrics(度量)的一个开源监控系统,它有一个简单而强大的数据模型和查询语言,让我们分析应用程序.Prometheus诞生于2012年主要是使用go语言编写的 ...
k3 cloud中员工离职以后释放站点
进入金蝶云企业平台:https://cloud.kingdee.com/qy,找到对应的用户并选择离职给替代的员工加上专业应用组: 客户端也加上分组并且同步注册用户管理中心更新用户许可:
centos虚拟机配置网卡连接
本地连接 centos虚拟机连接设置: 换过ip之后需要重启网络服务新ip才生效 #service network restart 修改dns:
ln -在文件之间建立连接
总览 ln [options] source [dest] ln [options] source...directory POSIX 选项: [-f] GNU 选项(缩写): [-bdfinsvF] ...
octave-bug - 报告 GNU Octave 中的 bug
SYNOPSIS 总览 octave-bug [-s subject] DESCRIPTION 描述 octave-bug 是一个 shell 脚本,用于以一种标准的格式撰写有关 Octave 的 b ...

大数据笔记（五）——HDFS的高级特性

大数据笔记（五）——HDFS的高级特性的更多相关文章

随机推荐

热门专题