HDFS 的Trash回收站

HDFS的Trash回收站功能

文件的删除和恢复和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户恢复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了.在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Emptier,这个线程专门管理和监控系统回收站下面的所有文件/目录,对于已经超过…

1)在core-site.xml文件中添加这个配置在每个节点(不仅仅是主节点)上添加配置 core-site.xml,增加如下内容 <property> <name>fs.trash.interval</name> <value></value> </property> 1440表示在文件放入回收站1440分钟之后才会真得彻底的被删除 2)使用命令行删除文件: //查看HDFS下的根目录 root@Ubuntu-1:/usr/loc…

Hadoop Trash回收站使用指南

转载:https://blog.csdn.net/sunnyyoona/article/details/78869778 我们在删除一个文件时,遇到如下问题,提示我们不能删除文件放回回收站: sudo -uxiaosi hadoop fs -rm -r tmp/data_group/test/employee/employee_salary.txt17/12/06 16:34:48 INFO fs.TrashPolicyDefault: Namenode trash configuration:…

CM记录-HDFS清理垃圾回收站

HDFS数据块所在存储的目录满了的解决方法 1.增加磁盘空间 2.删除回收站 hadoop dfs -du -h 查看各个HDFS空间占用情况 hadoop dfs -expunge 清空回收站 hadoop dfs -rm -skipTrash /user/path 删除目录跳过回收站 fs.trash.interval 和 fs.trash.checkpoint.interval dfs.replication.interval复制延迟时间为3秒,默认值. 单机Hadoop修改/…

大数据之路week07--day01（HDFS学习，Java代码操作HDFS，将HDFS文件内容存入到Mysql）

一.HDFS概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 . 是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间. 通透性.让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般. 容错.即使系统中有某些节点宕机,整体来说系统仍然可以持续运作而不会有数据损失[通过副本机制实现]. 分布式文件管理…

Hadoop回收站及fs.trash参数详解

前言: Linux系统里,个人觉得最大的不方便之一就是没有回收站的概念.rm -rf很容易造成极大的损失.而在Hadoop或者说HDFS里面,有trash(回收站)的概念,可以使得数据被误删以后,还可以找回来. Hadoop里的trash选项默认是关闭的,所以如果要生效,需要提前将trash选项打开,修改conf里的core-site.xml即可,下面我们测试下开启前后的区别: 1.不启用trash [hadoop@hadoop000 ~]$ hdfs dfs -put test.log / […

Hadoop学习（2）-- HDFS

随着信息技术的高度发展,数据量越来越多,当一个操作系统管辖范围存储不下时,只能将数据分配到更多的磁盘中存储,但是数据分散在多台磁盘上非常不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,因此诞生了分布式文件系统.HDFS(Hadoop Distribute File System)是一种能运行在通用硬件上的分布式文件系统,具有高度容错的特点,适合部署在廉价的机器上. 由于hadoop1和hadoop2版本差异较大,本文以下部分如未标记特殊说明则默认指的是hadoop2版本 HDFS基本概…

hadoop进阶---hadoop性能优化(一)---hdfs空间不足的管理优化

Hadoop 空间不足,hive首先就会没法跑了,进度始终是0%. 将HDFS备份数降低将默认的备份数3设置为2. 步骤:CDH–>HDFS–>配置–>搜索dfs.replication–>设置为2 删除无用HDFS数据和Hbase表格主要使用命令hadoop fs -du,hadoop fs -ls,hadoop fs -rm 空间不足根本的解决办法自然是清理空间.但是清理空间也要有步骤. 检查总体情况 hadoop dfsadmin -report 检查每个目录 hdfs…

如何有效恢复误删的HDFS文件

HDFS是大数据领域比较知名的分布式存储系统,作为大数据相关从业人员,每天处理HDFS上的文件数据是常规操作.这就容易带来一个问题,实际操作中对重要数据文件的误删,那么如何恢复这些文件,就显得尤为重要. 本文针对误删HDFS文件的问题,通过利用HDFS的内部机制,提供了以下几种方法: 1. 回收站机制恢复 HDFS提供了回收站功能,当我们执行hdfs dfs -rm -r some_file命令后,文件不会被立即删除.而是先将要删除的数据移动到当前用户的.Trash目录下,待超过一定时间(可通过…

[DB] HDFS

体系架构 NameNode HDFS主节点.管理员接收客户端(命令行.Java程序)的请求:创建目录.上传.下载.删除数据管理和维护HDFS的日志和元信息日志文件(edits文件) 二进制文件,记录客户端所有操作,同时体现HDFS的最新状态 $HADOOP_HOME/tmp/dfs/name/current 日志查看器(edits viewer):把edits转成文本(XML)格式 hdfs oev -i edits_inprogress_0000000000000000107 -o ~/…

HDFS shell

bin/hdfs -help bin/hdfs dfs -mkdir -p /yfq/test/ bin/hdfs dfs -put /etc/profile /yfq/test/profile 上传文件 bin/hdfs dfs -put /etc/* /yfq/test/上传文件夹 bin/hdfs dfs -cat /yfq/test/profile查看文件 bin/hdfs dfs -get /yfq/test/profile . 下载profile文件到当前目录 bin/hdfs df…

linux下rm命令修改，增加回收站功能【笔记】

一个脚本,linux的用户根目录下.bashrc最后加入如下代码,可以修改rm命令,让人们rm时候不再会全部删除,而是会加入到回收站里,以下是根据别人的资料参考修改的,不是原创加入后,需要source .bashrc 工作原理,重新定义rm,每次执行rm的话,会将文件mv到~/.trash目录下操作方法,终端下执行: mcls----->清空.trash回收站中的文件 ur 恢复指定文件 cattrash 查看回收站的内容 mkdir -p ~/.trash alias rm=trash…

Hadoop如何恢复被删除的文件

hadoop的hdfs中被删除文件的恢复原理和回收站原理是一样的,就是在删除hdfs文件时,被删除的文件被移动到了hdfs的.Trash文件夹中,恢复时只需将该文件夹中文件拿出即可.具体操作如下: 1 设置.Trash文件夹如果需要恢复hdfs中文件,就需要设置.Trash,hadoop的.Trash默认是关闭的.具体设置如下: <property> <name>fs.trash.interval</name> <value&…

Hadoop 中疑问解析

Hadoop 中疑问解析 FAQ问题剖析一.HDFS 文件备份与数据安全性分析1 HDFS 原理分析1.1 Hdfs master/slave模型 hdfs采用的是master/slave模型,一个hdfs cluster包含一个NameNode和一些列的DataNode,其中NameNode充当的是master的角色,主要负责管理hdfs文件系统,接受来自客户端的请求:DataNode主要是用来存储数据文件,hdfs将一个文件分割成一个或多个的block,这些block可能存储在一个Data…

存算分离下写性能提升10倍以上，EMR Spark引擎是如何做到的？

引言随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多. 腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark.Hbase.Presto.Flink.Druid 等大数据框架. 近期,在支持一位 EMR 客户时,遇到典型的存储计算分离应用场景.客户使…

wordpress插件bug排查后记（记一次由于开启memecached引起的插件bug）

这篇文章是写给自己的. 周三的时候我在维护公司的一个wordpress项目页面时发现了一个非常奇怪的情况:当我尝试更新网站上的一个页面后,在wordpress后台的编辑器中发现其内容并没有按我预期的将图片的网址替换下来(网站开启了百度云插件,插件会抓取文章中的图片,然后将图片上传至百度云,并将文章中的地址替换),但是,我查看前台的页面却发现页面显示时正常的.检查页面中的图片网址也是做过替换的,总之一句话,就是前台文章展示页和后台编辑器中的内容不一致.这个bug真诡异,下面就把排查这个bug的过程…

Hive drop table batched

if the hive version not support drop table tablename purge. your drop table command will move data to .Trash in hdfs. dfs .Trash; drop table tablename; dfs .Trash/Current; #batch drop tables you want in hive. hive --database databaseName -e "show tab…

转：绝对干货--WordPress自定义查询wp_query所有参数详细注释

<?php /** * WordPress 查询综合参考 * 编译:luetkemj - luetkemj.com * * 官方文档: http://codex.wordpress.org/Class_Reference/WP_Query * 源代码: http://core.trac.wordpress.org/browser/tags/3.5.1/wp-includes/query.php */ $args = array( //////作者参数 - 显示某些作者发表的文章 'author'…

Ubuntu 备份系统为ISO镜像 & 解决ISO限制4GB大小 & Clone当前系统到其他电脑

看标题,标题涵盖了3个部分,Ubuntu 备份系统为ISO镜像, 解决ISO限制4GB大小 , Clone当前系统到其他电脑我们就从三个部分说起. Ubuntu 备份系统为ISO镜像在Windows系统中,我们一般使用Ghost一键备份系统,Ghost是相对成熟的系统备份软件,来自赛门铁克,傻瓜式操作,各种PE中,系统镜像中都是默认自带. 在Linux系统中,也有好几个系统备份工具. 比如 dd命令参考:http://www.cnblogs.com/EasonJim/p/744222…

WordPress自定义查询WP_Query使用方法大全

自定义调用文章在网站建设中很常用,wordpress也很人性化,用新建查询new WP_Query就能实现相关功能.WP_Query怎么用呢?随ytkah一起来看看吧我们知道wordpress的主循环 <?php if ( have_posts() ) : while ( have_posts() ) : the_post(); the_title(); endwhile; endif; ?> 但其实是隐藏了一些参数,比如 <?php if ( $wp_query->have_p…

Linux详细介绍以及常用命令

Linux系统说明 Linux( 诞生于1991.10.5) 继承了Unix以网络为核心的设计思想, 是一个性能稳定的多用户网络操作系统. Linux这个词严格意义上只表示Linux内核, 但日常中, 习惯用Linux来形容整个基于Linux内核, 并使用GNU( 一个自由的操作系统) 工程各种工具和数据库的操作系统. 常见的有主流产品如 ubuntu, CentOS, Debian, Redhat, "中标麒麟" 等. 注意, Linux系统全部都是基于文件的, Linux操作系统是…

九个最容易出错的 Hive sql 详解及使用注意事项

阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节. 文章首发于公众号:五分钟学大数据前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握. 在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项. 正文开始 1. decima…

最强最全面的Hive SQL开发指南，超四万字全面解析

本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些! 第一部分: hive模糊搜索表:show tables like '*name*'; 查看表结构信息:desc table_name; 查看分区信息:show partitions table_name; 加载本地文件:load data local inpath '/xxx/test.txt' overwrite into t…

HDFS的回收站 && 安全模式

回收站机制 1). HDFS 的回收站机制由 core-site.xml 中 fs.trash.interval 属性(以分钟为单位)设置,默认是 0,表示未启用.注意:配置数值应该为1440,而配置24*60会抛出NumberFormatException异常(亲测). 2). 回收站特性被启用时,每个用户都有独立的回收站目录,即:home 目录下的.Trash 目录. 执行删除dfs -rm命令 [root@ncst sbin]# hdfs dfs -rm /test/in/small/sm…

hdfs清空回收站

1. 直接删除目录(不放入回收站) hdfs dfs -rm -skipTrash /usr/tmp/log/ 2. 清空回收站 hdfs dfs -expunge…

HDFS删除并清空回收站

删除文件并放入回收站: hdfs dfs -rm -f /path 删除文件不放入回收站: hdfs dfs -rm -f -skipTrash /path 清空回收站: hdfs dfs -expunge (执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作)…

搭建hdfs服务器集群的搭建+trash

完全分布式搭建需要三台机器:node1.node2和node3 搭建时间之前首先要保持时间一致:date ntpdateyum install ntpdatentpdate -u ntp.sjtu.edu.cndate 如果时间不能设置,可以使用以下命令:rdate -s time-b.timefreq.bldrdoc.gov(能使三台主机时间一致) jdk也要配置好: 三台防火墙全部关掉:service iptables stop 1.解压hadoop-2.5.1_x64.tar到根目录下:…

Hadoop官方文档翻译——HDFS Architecture 2.7.3

HDFS Architecture HDFS Architecture(HDFS 架构) Introduction(简介) Assumptions and Goals(假设和目标) Hardware Failure(硬件失效是常态) Streaming Data Access(支持流式访问) Large Data Sets(大数据集) Simple Coherency Model(简单一致性模型) "Moving Computation is Cheaper than Moving Data&q…

[转]hadoop hdfs常用命令

FROM : http://www.2cto.com/database/201303/198460.html hadoop hdfs常用命令 hadoop常用命令: hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录.子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文…

HDFS 原理、架构与特性介绍--转载

原文地址:http://www.uml.org.cn/sjjm/201309044.asp 本文主要讲述 HDFS原理-架构.副本机制.HDFS负载均衡.机架感知.健壮性.文件删除恢复机制 1:当前HDFS架构详尽分析 HDFS架构 1.NameNode 2.DataNode 3.Sencondary NameNode 数据存储细节 NameNode 目录结构 Namenode 的目录结构: ${ dfs.name.dir}/current /VERSION /edits /fsimage /f…

【HDFS 的Trash回收站】的更多相关文章