批量上传文件到HDFS的Shell脚本

在做Hadoop数据挖掘项目的时候，我们第一步是源数据的获取，即把相应的数据放置到HDFS中，以便Hadoop进行计算，手动将文件上传到HDFS中，未免太费时费力，所以我们可以采取像Flume一样的框架，或者采用Shell脚本进行文件的上传。下面主要提供Shell脚本的大致写法，仅供参考，可以根据不同业务进行相应的修改。

版本1：

#!/bin/bash

#set java env

export JAVA_HOME=/export/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env

export HADOOP_HOME=/export/servers/hadoop

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

#日志文件存放的目录

log_src_dir=/export/software/

#日志文件上传到hdfs的根路径

hdfs_root_dir=/data/clickLog//

#读取日志文件的目录，判断是否有需要上传的文件

ls $log_src_dir | while read fileName

do

        if [ "hadoop.log1" = "$fileName" ];then

                hadoop fs -put $log_src_dir$fileName $hdfs_root_dir

        fi

done

版本2：

#版本1的问题：
#虽然上传到Hadoop集群上了，但是原始文件还在。如何处理？
#日志文件的名称都是xxxx.log1，再次上传文件时，因为hdfs上已经存在了，会报错。如何处理？

#如何解决版本1的问题
# 1、先将需要上传的文件移动到待上传目录
# 2、在将文件移动到待上传目录时，将文件按照一定的格式重名名
# /export/software/hadoop.log1 /export/data/click_log/xxxxx_click_log_{date}

#!/bin/bash

#set java env

export JAVA_HOME=/home/hadoop/app/jdk1..0_51

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

#set hadoop env

export HADOOP_HOME=/home/hadoop/app/hadoop-2.6.

export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

#日志文件存放的目录

log_src_dir=/home/hadoop/logs/log/

#待上传文件存放的目录

log_toupload_dir=/home/hadoop/logs/toupload/

#日志文件上传到hdfs的根路径

hdfs_root_dir=/data/clickLog//

#打印环境变量信息

echo "envs: hadoop_home: $HADOOP_HOME"

#读取日志文件的目录，判断是否有需要上传的文件

echo "log_src_dir:"$log_src_dir

ls $log_src_dir | while read fileName

do

    if [[ "$fileName" == access.log.* ]]; then

    # if [ "access.log" = "$fileName" ];then

        date=`date +%Y_%m_%d_%H_%M_%S`

        #将文件移动到待上传目录并重命名

        #打印信息

        echo "moving $log_src_dir$fileName to $log_toupload_dir"xxxxx_click_log_$fileName"$date"

        mv $log_src_dir$fileName $log_toupload_dir"xxxxx_click_log_$fileName"$date

        #将待上传的文件path写入一个列表文件willDoing

        echo $log_toupload_dir"xxxxx_click_log_$fileName"$date >> $log_toupload_dir"willDoing."$date

    fi

done

#找到列表文件willDoing

ls $log_toupload_dir | grep will | grep -v "_COPY_" | grep -v "_DONE_" | while read line

do

    #打印信息

    echo "toupload is in file:"$line

    #将待上传文件列表willDoing改名为willDoing_COPY_

    mv $log_toupload_dir$line $log_toupload_dir$line"_COPY_"

    #读列表文件willDoing_COPY_的内容（一个一个的待上传文件名）,此处的line就是列表中的一个待上传文件的path

    cat $log_toupload_dir$line"_COPY_" | while read line

    do

        #打印信息

        echo "puting...$line to hdfs path.....$hdfs_root_dir"

        hadoop fs -put $line $hdfs_root_dir

    done

    mv $log_toupload_dir$line"_COPY_"  $log_toupload_dir$line"_DONE_"

done

定时执行脚本：

 */ * * * * sh /export/servers/shell/uploadFile2Hdfs.v2.sh

 */ * * * * sh source /etc/profile.sh /export/servers/shell/uploadFile2Hdfs.v1.sh

# 编辑命令是crontab -e

# 查看命令是crontab -l

批量上传文件到HDFS的Shell脚本的更多相关文章

hadoop的hdfs文件操作实现上传文件到hdfs
这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到 ...
Linux命令之rz - 批量上传文件，简单易用（转载）
用途说明 rz命令能够批量上传文件,当然也可上传单个文件啦.使用的协议是古老的ZMODEM协议,尽管协议古老,但毫不影响的简单易用的特性.一般情况我们要上传文件到Linux系统,要么使用ftp(还得 ...
转 Android网络编程之使用HttpClient批量上传文件 MultipartEntityBuilder
请尊重他人的劳动成果,转载请注明出处:Android网络编程之使用HttpClient批量上传文件 http://www.tuicool.com/articles/Y7reYb 我曾在<Andr ...
不带插件，自己写js，实现批量上传文件及进度显示
今天接受项目中要完成文件批量上传文件而且还要显示上传进度,一开始觉得这个应该不是很麻烦,当我在做的时候遇到了很多问题,很头疼啊. 不过看了别人写的代码,自己也测试过,发现网上好多都存在一些问题,并不是 ...
Python基于Python实现批量上传文件或目录到不同的Linux服务器
基于Python实现批量上传文件或目录到不同的Linux服务器 by:授客 QQ:1033553122 实现功能 1 测试环境 1 使用方法 1 1. 编辑配置文件conf/rootpath_fo ...
input file multiple 批量上传文件
这几天维护系统,有一个批量上传文件功能,出现了一点小问题我的笔记本选择要上传的文件很正常但在测试环境上,别人的电脑上,选择上传文件之后一开始,以为是代码问题,网上找了很多的资料,但还是没用,然后 ...
使用 sendKeys(keysToSend) 批量上传文件
未经允许,禁止转载!!! 在selenium里面处理文件上传的时候可以使用sendKeys(keysToSend) 上传文件例如: element.sendKeys(“C:\\test\\uploa ...
TP3.2批量上传文件（图片），解决同名冲突问题
1.html <form action="{:U('Upload/index')}" enctype="multipart/form-data" meth ...
HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo
26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式 ...

随机推荐

ms sql 在任何位置添加列
摘自: http://bbs.csdn.net/topics/40236129 在任何位置插入列:create proc addcolumn@tablename varchar(30), --表名@ ...
python灰帽子学习感想
Gray Hat Python Python Programming for hackers and reverse engineers Python灰帽子:黑客与逆向project师的Python编 ...
[Angular] Two things about OnChanges Lifecycle hook
1. ngOnChanges is called before ngOnInit but after constructor() 2. ngOnChanges is called because of ...
struts2结合poi-3.7实现数据导出为excel
我们在处理数据的时候,有可能要将数据导出到excel文件中,那么java中是怎么实现的呢?apache开发的poi就可以帮我们实现啦,它也是开源的代码,导入相应的jar包,就可以轻松实现,下面让我们来 ...
ffmpeg对rtmp的基本操作[转]
ffplay和ffmpeg调用的库是一样的.我刚才试了一下,是可以播的.ffplay "rtmp://tsl.s1979.cutv.com:1935/cutvChannelLive/AxeF ...
SVN：This client is too old to work with working copy…解决方法
昨天升级了一下苹果系统到10.10,扁平化确实不错,高兴之余多少有些不快.我的svn出现故障,总是提示我 SVN:This client is too old to work with workin ...
RSA/DSA 密钥的工作原理
下面从整体上粗略的介绍了 RSA/DSA 密钥的工作原理.让我们从一种假想的情形开始,假定我们想用 RSA 认证允许一台本地的 Linux 工作站(称作 localbox)打开 remotebox 上 ...
MySQL外键的设置及作用
原文地址:http://www.php100.com/html/webkaifa/database/Mysql/2010/0830/5342.html 外键的作用: 保持数据一致性,完整性,主要目的是 ...
linux ps查看进程命令详解
http://linux.net527.cn/Linuxwendang/xitongguanliyuan/39094.htmlLinux操作系统PS命令详细解析要对系统中进程进行监测控制,用 ps ...
mongodb - save()和insert()的区别
遇到_id相同的情况下:insert操作会报错:save完成保存操作 > db.person.find() > db.person.insert({"_id":1,ag ...

批量上传文件到HDFS的Shell脚本

批量上传文件到HDFS的Shell脚本的更多相关文章

随机推荐

热门专题