如何向hadoop集群定时提交一个jar作业？

除了使用Hive，Pig来执行一个MapReduce任务，不需要专门的把项目打成jar包，提交执行，或者定时执行，因为Hive，Pig这些开源框架已经，帮我们自动打包上传了。

而有些时候，我们自己手写了一个MapReduce的任务，然后这个任务里面依赖了其他的第三方包，比如说是Lucene的，或者是Solr，ElasticSearch的，那么打包的时候就需要将这些依赖的jar包也一起的打包进去。

如果你用的是maven，那么事情就简单了，maven会自动把所有依赖的jar包，打成一个统一的jar，但是通常不需要maven，因为maven相对来说，还是比较复杂，我们更倾向于使用ant来打包，配置很灵活。

那么，如何向hadooop集群提交作业呢？
通常的命令如下：
hadoop jar xxx.jar input out
这样就会把jar包提交到hadoop集群上，只要包含依赖的jar也在这个jar包中，那么程序就不会出问题。

那么，问题来了？我想定时执行一个作业，应该怎么写呢

如果直接在linux下的crontab中，写定时启动的脚本，没问题，但是如果你的脚本是启动一个mr的任务，那么就有可能出现问题了，因为执行MR，是需要Hadoop的环境变量的，在crontab启用的shell进程，默认是没有激活环境变量的，所以，你有可能发现，自己的写的crontab脚本，奇怪的失效了。

如何解决在crontab的进程里环境变量失效的问题？

很简单，在启动的脚本开始前，再次激活的环境变量即可，代码如下：

#!/bin/bash
##下面的2行代码很重要，如果不再次激活环境变量，hadoop的jar就不能正确提交任务
. /etc/profile
. ~/.bash_profile

另外在crontab中，需要cd到当前目录下，执行，否则一些log不会被正确到该工程，或目录下：

//在下午的14点39分启动一个定时任务，使用nohup 挂起后台运行，并将所有的log重定向到一个log文件里
39 14 * * * cd /home/search/qindongliang/cr-dataload ; nohup sh start.sh 1 2015-04-10 all &> rate.log &

另外一点需要注意，如果在crontab的进程中执行任务，那么最好使用nohup挂起后台运行，否则，hadoop的系统log会丢失，因为默认是在终端的界面上打印的。

[search@fsedump01sand cr-dataload]$ cat start.sh
#!/bin/bash
##下面的2行代码很重要，如果不再次激活环境变量，hadoop的jar就不能正确提交任务
. /etc/profile
. ~/.bash_profile
echo "hadoop的home："$HADOOP_HOME
echo `pwd`
if [ ! $# -eq 3 ] ; then
echo "第一个参数：请输入要处理的dataload业务 1:rate 2:keyword "
echo "第二个参数：请输入读取HDFS上读取数据的开始日期, 例如: 2015-04-10 "
echo "第三个参数：请输入读取HDFS上读取数据的结束日期, 例如: 2015-05-10 "
exit
fi
#参数1,mapping文件的地址
p1="/user/d1/mapping.xml"
#参数4，是否清空上一次的保存目录，0=清除，1=不清除
p4="0"
if [ $1 -eq 1 ] ; then
#参数2，处理数据的输入路径
p2="1"
p3="/fse2/conversions/rate/shard1/input"
p5="rate"
elif [ $1 -eq 2 ] ; then
#参数2，处理数据的输入路径
p2="2"
p3="/fse2/conversions/keyword/shard1/input"
#参数5，控制那个索引的
p5="keyword"
else
echo "不支持此参数，只能输入1或者2，请注意!"
exit
fi
echo "==============参数信息=============="
echo $p1
echo $p2
echo $p3
echo $p4
echo $p5
echo $2
echo $3
echo "===================================="
#exit
#参数3，处理数据结果的保存路径
#p3="/user/d1/uvoutput"
#p3="/user/d1/kwoutput"
#p3="/fse2/conversions/keyword/shard1/input"
#p3="/fse2/conversions/uv/shard1/input"
#参数4，是否清空上一次的保存目录，0=清除，1=不清除
#p4="0"
#参数5，控制那个索引的
#p5="keyword"
#p5="uv"
cs='.:'
root="`pwd`/"
curr="`pwd`/conf"
echo $curr
libpath="`pwd`/lib/"
FILES=`ls $libpath`
for txt in $FILES;do
cs=$cs$libpath$txt:
done
cs=$cs$curr:$root"cr-dataload.jar"
echo $cs
echo [`date`] "开始启动dataload!"
#nohup sh offline.sh 2014-12-01 2014-12-15 &> nohup.out &
#hadoop jar cr-dataload.jar com.dhgate.search.rate.convert.StoreConvert -libjars $cs
#java -cp $cs com.dhgate.search.rate.convert.StoreConvert $p1 $p2 $p3 $p4 $p5 $2 $3
#/home/search/hadoop/bin/hadoop jar cr-dataload.jar com.dhgate.search.rate.convert.StoreConvert $p1 $p2 $p3 $p4 $p5 $2 $3 > $p2.log
hadoop jar cr-dataload.jar com.dhgate.search.rate.convert.StoreConvert $p1 $p2 $p3 $p4 $p5 $2 $3
#echo $cs

如何向hadoop集群定时提交一个jar作业？的更多相关文章

深入理解Hadoop集群和网络
导读:云计算和Hadoop中网络是讨论得相对比较少的领域.本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专长是数据中心.云网络等.文章素材基于作者自己的研究.实验和C ...
深入理解Hadoop集群和网络【转】
http://os.51cto.com/art/201211/364374.htm 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系.最开始我们先学习一下Hado ...
初学Hadoop：利用VMWare+CentOS7搭建Hadoop集群
一.前言开始学习数据处理相关的知识了,第一步是搭建一个Hadoop集群.搭建一个分布式集群需要多台电脑,在此我选择采用VMWare+CentOS7搭建一个三台虚拟机组成的Hadoop集群. 注:1 ...
编写hadoop程序，并打包jar到hadoop集群运行
windows环境下编写hadoop程序新建:File->new->Project->Maven->next GroupId 和ArtifactId 随便写(还是建议规范点) ...
Eclipse远程提交hadoop集群任务
文章概览: 1.前言 2.Eclipse查看远程hadoop集群文件 3.Eclipse提交远程hadoop集群任务 4.小结 1 前言 Hadoop高可用品台搭建完备后,参见<Hadoop ...
Eclipse提交任务至Hadoop集群遇到的问题
环境:Windows8.1,Eclipse 用Hadoop自带的wordcount示例 hadoop2.7.0 hadoop-eclipse-plugin-2.7.0.jar //Eclipse的插件 ...
hadoop 把mapreduce任务从本地提交到hadoop集群上运行
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yar ...
在windows远程提交任务给Hadoop集群（Hadoop 2.6）
我使用3台Centos虚拟机搭建了一个Hadoop2.6的集群.希望在windows7上面使用IDEA开发mapreduce程序,然后提交的远程的Hadoop集群上执行.经过不懈的google终于搞定 ...
用Docker在一台笔记本电脑上搭建一个具有10个节点7种角色的Hadoop集群（上）-快速上手Docker
如果想在一台电脑上搭建一个多节点的Hadoop集群,传统的方式是使用多个虚拟机.但这种方式占用的资源比较多,一台笔记本能同时运行的虚拟机的数量是很有限的.这个时候我们可以使用Docker.Docker ...

随机推荐

iptables使用multiport 添加多个不连续端口不指定
iptables使用multiport 添加多个不连续端口碟舞飞扬 , 01:26 , Linux技术 , 评论(0) , 引用(0) , 阅读(12214) , Via 本站原创大 | 中 ...
POJ1474 Video Surveillance(半平面交)
求多边形核的存在性,过了这题但是过不了另一题的,不知道是模板的问题还是什么,但是这个模板还是可以过绝大部分的题的... #pragma warning(disable:4996) #include & ...
HDU 3518 Boring counting（后缀数组，字符处理）
题目参考自:http://blog.sina.com.cn/s/blog_64675f540100k9el.html 题目描述: 找出一个字符串中至少重复出现两次的字串的个数(重复出现时不能重叠). ...
WCF 传输和接受大数据
向wcf传入大数据暂时还没找到什么好方案,大概测了一下传输2M还是可以的,有待以后解决. 接受wcf传回的大数据,要进行web.config的配置,刚开是从网上搜自己写进行配置,折磨了好长时间. 用以 ...
Logstash最佳实践
http://udn.yyuap.com/doc/logstash-best-practice-cn/index.html
JS中的this好神奇，都把我弄晕了
一.this的常见判断: 1.函数预编译过程 this —> window 2.全局作用域里 this —> window 3.call/apply 可以改变函数运行时this指向 4.o ...
SVN与CVS的区别大全(转载)
本节讲解SVN与CVS的区别,主要包括是否更好的冲突标识与处理,是否有更多的本地/离线操作以及元数据管理问题. 更好的冲突标识与处理通过是否进行更好的冲突标识与处理看SVN与CVS的区别:C ...
查看程序是否启动或者关闭--比如查看Tomcat是否开启！直接用ps命令查看进程就行了啊
1.查看程序是否启动或者关闭--比如查看Tomcat是否开启!直接用ps命令查看进程就行了啊 2.Tomcat服务器和虚拟机的关系,Tomcat启动运行过程要调用系统环境变量的java_home啊,J ...
Android ListView无法触发ItemClick事件
Android ListView无法触发ItemClick事件开发中很常见的一个问题,项目中的listview不仅仅是简单的文字,常常需要自己定义listview,自己的Adapter去继承Base ...
Spring笔记——依赖注入
依赖注入有三种方式: 1. 使用构造器注入 2. 使用属性setter方法注入 3. 使用Field注入(用于注解方式) 注入依赖对象可以采用手工装配或自动装配,在实际应用中建议使用手工装配,因为自 ...

如何向hadoop集群定时提交一个jar作业？

如何向hadoop集群定时提交一个jar作业？的更多相关文章

随机推荐

热门专题