定时脚本: 删除HDFS中的过期文件】的更多相关文章

1. 基本原理: 通过hadoop fs -ls *命令获取相关文件或目录的修改时间,然后与设定的过期时间进行比较,之后执行删除操作即可 2. 相关代码: #!/bin/bash source ~/.bashrc # HADOOP所在的bin目录 HADOOP_BIN_PATH=/home/hadoop/hadoop--cdh5.0.0/bin #待检测的HDFS目录 data1_file=/user/gas/data1data2_file=/user/gas/data2 #将待检测的目录(可以…
1 import java.text.SimpleDateFormat; 2 import java.util.Scanner; 3 4 import org.apache.hadoop.fs.FileStatus; 5 import org.apache.hadoop.fs.FileSystem; 6 import org.apache.hadoop.fs.LocatedFileStatus; 7 import org.apache.hadoop.fs.Path; 8 import org.a…
bat脚本删除7天前的文件 @echo off forfiles /p D:\logstash-1.4.2\bin\ /m *.log -d -7 /C "cmd /c del /f @path\" forfiles /p D:\logstash-1.4.2\bin\ /m *.mdmp -d -7 /C "cmd /c del /f @path\" pause forfiles: /p 指定的路径 /s 包括子目录 /m 查找的文件名掩码 /d 指定日期,有绝对日…
今天在我同步mongo数据库的时候,服务器的磁盘突然就被占满了导致同步中断,mongo容器也停止工作了.然后就想要弄一个能够定时清理同步过程中留存在docker容器中的mongo数据的脚本.话不多说,脚本如下#!/bin/bash# 获取容器的idcid=`docker ps | grep mongo | awk '{print $1}'`# 定义日志文件log_file=/目录/delete_mongo_dump_file.log(需要替换成自己的目录)# 格式化日期today=$(date…
最近项目末期, 我们团队为了ipa的大小使用不少的体积减小的方法, 除了一些常规的方法之外, 我分享一下自己研究出来的新思路. 首先我们来简单的介绍一下mach-O. 什么是mach-O? Mach-O格式全称为Mach Object文件格式的缩写,是mac上可执行文件的格式,类似于windows上的PE格式 (Portable Executable ), linux上的elf格式 (Executable and Linking Format). 上面第一个图是苹果给出的mach-O格式的示意图…
1. 任务背景 近日有个项目任务,要求读取压缩在Zip中的百科HTML文件,经分析发现,提供的Zip文件有如下特点(=>指代对应解决方案): (1) 压缩为分卷文件 => 只需将解压缩在同一目录中的一个分卷zip即可解压缩出整个文件 (2) 压缩文件中又包含不同的两个文件夹,且各包含n个小zip文件,小zip文件中包含目录及对应的HTML文本文件 采用第一方案:依次解压缩各小zip文件,存放在一个目录中,然后上传到HDFS中 存在问题:每个小zip都包含上万个小文件,按照第一方案解压缩,耗费的…
不知道大家是否也跟我一样,是一只要把的自己电脑文件安排的条理有序,把没用的文件会及时删掉的程序猿呢?如果是的话,那么我们可以愉快地探讨下文章的内容.如果不是的话,你也可以留下来凑凑热闹嘛(>-<). 下面要介绍的是今天的主角-- tmpwatch ,它能帮助我们递归删除在给定时间内没有访问的文件和空目录. 当然,我们也可以使用 find 命令查找并删除超过 x 天未访问的文件,不过 tmpwatch 可以一步到位,何乐而不为? tmpwatch 默认根据文件或目录的访问时间(access ti…
不多说,直接上干货! 问题现象 当执行创建文件的的时候, 即: String Path = "hdfs://host2:9000"; FileSystem fileSystem = FileSystem.get(new URI(Path),new Configuration()); String DIR_PATH = "hdfs://host2:9000/user/hadoop/ok"; fileSystem.mkdirs(new Path(DIR_PATH));/…
Reference 大家一定遇到过在使用Git时,不小心将一个很大的文件添加到库中,即使删除,记录中还是保存了这个文件.以后不管是拷贝,还是push/pull都比较麻烦. === 删除大文件方法 方法很简单,就是先找到大文件对象再删除. 先清理当前working tree. commit.stash.checkout都ok 对仓库进行gc操作 git gc 运行count-objects 查看空间使用,size-pack 是以千字节为单位表示的 packfiles 的大小. git count-…
打开Finder  commend + shift +g 进入文件夹  : ~/Library/MobileDevice/Provisioning Profiles  删除即可…
背景: 练习用shell的一些特殊符号,输出了一个 cat test.txt > -n,结果创建了一个叫做“-n”的文件   问题: 使用rm -f -n删除不了“-n"文件   解决方法:在文件名之前加”--“来删除文件…
在python中: open('file.txt', 'w').close() 或者,如果你已经打开了一个文件: f = open('file.txt', 'r+') f.truncate(0) # need '0' when using r+  …
#!/bin/bashlocation=/root/rmfind $location -mtime +30 -print | xargs rm -rf //-mtime是距离上一次修改时间 -print是只显示文件 xargs是获取find查找的结果在通过rm命令删除…
Finder->前往 ~/Library/MobileDevice/Provisioning Profiles…
        $savepath1 = 'Public/biaoqian/upload';         $path1 = dir($savepath1);           while (($item = $path1->read())!=false) {             if($item=='.' || $item=='..'){                   continue;             }else{                 $file = $sa…
import os; import sys; import time; class DeleteLog: def __init__(self,filename,days): self.filename=filename; self.days=days; def delete(self): if os.path.exists(self.filename)==False: print(self.filename+ ' is not exists!!') elif os.path.isfile(sel…
1 import java.io.FileInputStream; 2 import java.io.IOException; 3 import java.text.SimpleDateFormat; 4 import java.util.Scanner; 5 6 import org.apache.hadoop.conf.Configuration; 7 import org.apache.hadoop.fs.FSDataInputStream; 8 import org.apache.had…
1 import org.apache.hadoop.fs.*; 2 import java.text.SimpleDateFormat; 3 public class D_ReadFileStatus { 4 public static void main(String[] args) { 5 try{ 6 Var_init var = new Var_init(); 7 SimpleDateFormat format = new SimpleDateFormat( 8 "yyyy-MM-dd…
1 import org.apache.hadoop.conf.Configuration; 2 import org.apache.hadoop.fs.*; 3 import org.apache.hadoop.fs.FileSystem; 4 import java.io.*; 5 6 public class B_DownLoadFile { 7 public static void copyToLocal(FileSystem fs, Path p_LocalPath, 8 Path p…
一.定时删除linux上定时的文件 显示20分钟前的文件 -exec ls -l {} \; 删除20分钟前的文件 -exec rm {} \; 显示20天前的文件 -exec ls -l {} \; 删除20天前的文件 -exec rm {} \; 二.定时删除HDFS上过时的文件 思路:获取文件或目录的修改时间,与设定的过期时间进行比较,对过期文件执行删除操作即可. #!/bin/bash source ~/.bashrc #待检测的HDFS目录 data1_file=/hive/wareh…
删除文件   bin/hdfs dfs -rm output2/* 删除文件夹   bin/hdfs dfs -rm -r output2 抓取内容     bin/hdfs dfs -cat /user/output1/part-r-00000 传文件到hdfs中去    bin/hdfs dfs -put LICENSE.txt 传文件到hdfs的某个文件夹中去    bin/hdfs dfs -put LICENSE.txt input2 将hdfs中的output文件夹复制到本地文件目录…
使用脚本删除ios工程中未使用图片 最近在读唐巧大神的<iOS开发进阶>,学到了一个大招:使用脚本删除ios中未使用的图片(纸书上有点小问题,参考github上的issue:使用脚本删除ios中未使用图片). issue中得到的建议是:将代码保存在一个.sh文件中,在xcode里面执行shell脚本文件.看到这里,头瞬间大了,大学学的shell都还给linux老师了....还有xcode中怎么执行脚本啊??? google一下,找到mac下创建.sh文件的小白方法:教你在mac上面创建可执行脚…
一.删除已有仓库如果我们想要删除Github中没有用的仓库,应该如何去做呢? 进入到我们需要删除的仓库里面,找到“settings”即仓库设置: 然后,在仓库设置里拉到最底部,找到“Danger Zone”即危险区域: 点击“Delete this repository”这样就可以删除该仓库了. 二.删除Github中的某个文件或文件夹我们知道,在Github上我们只能删除仓库,并不能删除文件或者文件夹,所以只能用命令来解决. 1.本地仓库和远程仓库同时删除 例如要删除如图所示的_config.…
一.安装java 二.IntelliJ IDEA(2018)安装和破解与初期配置 参考链接 1.进入官网下载IntelliJ IDEA https://www.jetbrains.com/idea/download/#section=windows,选择收费版,下面再破解 2.点击下载进入下载页开始下载,如果没有弹出下载框,请点击图中位置 3.下载之后双击,开始安装,点击next 4.选择安装路径,最好不要安装到C盘,这里我安装到D盘IDEA文件夹,点击next 5.选择安装32位或者64位的,…
1.进入sqoop2终端: [root@master /]# sqoop2 2.为客户端配置服务器: sqoop:000> set server --host master --port 12000 --webapp sqoop 3.查看服务器配置: sqoop:000> show version --all 4. 查看sqoop的所有连接: sqoop 所有的连接固定为四个,如下: sqoop:000> show connector 5.创建hdfs的link: sqoop:000&g…
@ 目录 前言:浅谈Hadoop Hadoop的发展历程 1.1 Hadoop产生背景 1.引入HDFS设计 1.1 HDFS主要特性 2.HDFS体系结构 HDFS工作流程机制 1.各个节点是如何互通有无的? RPC原理 客户端操作文件与目录 结论 前言:浅谈Hadoop Hadoop作为大数据入门的基石内容,其中HDFS更是所有生态的地基,so,我们有必要更深入去理解HDFS,以及HDFS在高可用的演变过程.如果有小可爱说hadoop和HDFS有啥区别的.の...,那容我之后在做背书来说明,…
HBase结合MapReduce批量导入 package hbase; import java.text.SimpleDateFormat; import java.util.Date; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.mapreduce.TableOutputFormat; import o…
windows下自动删除过期文件的脚本 前言: 比如日志文件每天都产生,时间长了就会有很大的一堆垃圾.整理一下 定时删除文件的方法. 正文: Windows: 定时删除tomcat日志和缓存.可以保留天数 forfiles /p "e:\Program Files\Tomcat 7.0\logs" /s /m *.log /d -5 /c "cmd /c del @path" forfiles /p "e:\Program Files\Tomcat 7.0…
需求说明 每日凌晨0点定时删除/temp目录下的所有一个月未被访问的文件. 脚本实现 linux 终端输入crontab -e,添加定时任务脚本命令 [root@localhost ~]# crontab -e 在文件末尾追加 0 0 * * * find /temp -atime +30 -exec rm -rf {} \; 参数说明 命令格式: find 对应目录 -name "文件名" -type f -mtime +n -exec rm -rf {} ; -type f:普通文…
Crontab 示例,最后这里要写成shell脚本定时运行 30 17 * * * cp -rf /usr/local/tomcat9-jforum/tomcat/logs/catalina.out  /usr/local/tomcat9-jforum/logs Crontab归结为以下几点特性:1.     Crontab约束2.      Crontab命令3.      Crontab文件语法4.      Crontab示例5.      Crontab环境设置6.     邮件7.  …