oozie 入门

转自：http://blackproof.iteye.com/blog/1928122

oozie概述：oozie能干什么

oozie格式：怎么用oozie

oozie执行：怎么运行oozie

oozie概述：

oozie是基于hadoop的调度器，以xml的形式写调度流程，可以调度mr，pig，hive，shell，jar等等。

主要的功能有

Workflow：顺序执行流程节点，支持fork（分支多个节点），join（合并多个节点为一个）

Coordinator，定时触发workflow

Bundle Job，绑定多个coordinator

oozie格式：

写一个oozie，有两个是必要的：job.properties 和 workflow.xml(coordinator.xml,bundle.xml)

一、job.properties里定义环境变量

nameNode	hdfs://xxx5:8020	hdfs地址
jobTracker	xxx5:8034	jobTracker地址
queueName	default	oozie队列
examplesRoot	examples	全局目录
oozie.usr.system.libpath	true	是否加载用户lib库
oozie.libpath	share/lib/user	用户lib库
oozie.wf.appication.path	${nameNode}/user/${user.name}/...	oozie流程所在hdfs地址

注意：

workflow：oozie.wf.application.path

coordinator：oozie.coord.application.path

bundle：oozie.bundle.application.path

二、XML

1.workflow：

<workflow-app xmlns="uri:oozie:workflow:0.2" name="wf-example1">
<start to="pig-node">
<action name="pig-node">
<pig>
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="hdfs://xxx5/user/hadoop/appresult" />
</prepare>
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>default</value>
<property>
<property>
<name>mapred.compress.map.output</name>
<value>true</value>
<property>
<property>
<name>mapreduce.fileoutputcommitter.marksuccessfuljobs</name>
<value>false</value>
<property>
</configuration>
<script>test.pig</script>
<param>filepath=${filpath}</param>
</pig>
<ok to="end">
<error to="fail">
</action>
<kill name="fail">
<message>
Map/Reduce failed, error message[${wf:errorMessage(wf:lastErrorNode())}]
</message>
</kill>
<end name="end"/>
</workflow-app>

2.coordinator

<coordinator-app name="cron-coord" frequence="${coord:hours(6)}" start="${start}" end="${end}"
timezoe="UTC" xmlns="uri:oozie:coordinator:0.2">
<action>
<workflow>
<app-path>${nameNode}/user/{$coord:user()}/${examplesRoot}/wpath</app-path>
<configuration>
<property>
<name>jobTracker</name>
<value>${jobTracker}</value>
</property>
<property>
<name>nameNode</name>
<value>${nameNode}</value>
</property>
<property>
<name>queueName</name>
<value>${queueName}</value>
</property>
</configuration>
</workflow>
</action>

注意：coordinator设置的UTC，比北京时间晚8个小时，所以你要是把期望执行时间减8小时

coordinator里面传值给workflow，example，时间设置为亚洲

<coordinator-app name="gwk-hour-log-coord" frequency="${coord:hours(1)}" start="${hourStart}" end="${hourEnd}" timezone="Asia/Shanghai"
xmlns="uri:oozie:coordinator:0.2">
<action>
<workflow>
<app-path>${workflowHourLogAppUri}/gwk-workflow.xml</app-path>
<configuration>
<property>
<name>yyyymmddhh</name>
<value>${coord:formatTime(coord:dateOffset(coord:nominalTime(),-1,'HOUR'), 'yyyyMMddHH')}</value>
</property>
</configuration>
</workflow>
</action>
</coordinator-app>

3.bundle

<bundle-app name='APPNAME' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns='uri:oozie:bundle:0.1'>
<controls>
<kick-off-time>${kickOffTime}</kick-off-time>
</controls>
<coordinator name='coordJobFromBundle1' >
<app-path>${appPath}</app-path>
<configuration>
<property>
<name>startTime1</name>
<value>${START_TIME}</value>
</property>
<property>
<name>endTime1</name>
<value>${END_TIME}</value>
</property>
</configuration>
</coordinator>
<coordinator name='coordJobFromBundle2' >
<app-path>${appPath2}</app-path>
<configuration>
<property>
<name>startTime2</name>
<value>${START_TIME2}</value>
</property>
<property>
<name>endTime2</name>
<value>${END_TIME2}</value>
</property>
</configuration>
</coordinator>
</bundle-app>

oozie hive

<action name="hive-app">
<hive xmlns="uri:oozie:hive-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<job-xml>hive-site.xml</job-xml>
<script>hivescript.q</script>
<param>yyyymmdd=${yyyymmdd}</param>
<param>yesterday=${yesterday}</param>
<param>lastmonth=${lastmonth}</param>
</hive>
<ok to="result-stat-join"/>
<error to="fail"/>
</action>

oozie运行

启动任务：

oozie job -oozie http://xxx5:11000/oozie -config job.properties -run

停止任务：

oozie job -oozie http://localhost:8080/oozie -kill 14-20090525161321-oozie-joe

注意：在停止任务的时候，有的时候会出现全线问题，需要修改oozie-site.xml文件

hadoop.proxyuser.oozie.groups *

hadoop.proxyuser.oozie.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.hosts *

oozie.server.ProxyUserServer.proxyuser.hadoop.groups *

oozie 入门的更多相关文章

Oozie入门
作者 Boris Lublinsky, Michael Segel ,译者侯伯薇发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分 ...
Oozie 快速入门
设想一下,当你的系统引入了spark或者hadoop以后,基于Spark和Hadoop已经做了一些任务,比如一连串的Map Reduce任务,但是他们之间彼此右前后依赖的顺序,因此你必须要等一个任务执 ...
oozie工作流相关入门整理
Oozie支持工作流,其定义通过将多个Hadoop Job的定义按照一定的顺序组织起来,然后作为一个整体按照既定的路径运行.一个工作流已经定义了,通过启动该工作流Job,就会执行该工作流中包含 ...
入门大数据---安装ClouderaManager,CDH和Impala,Hue，oozie等服务
1.要求和支持的版本 (PS:我使用的环境,都用加粗标识了.) 1.1 支持的操作系统版本操作系统版本 RHEL/CentOS/OL with RHCK kernel 7.6, 7.5, 7.4, ...
大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
Hadoop入门
一.Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)Hadoop主要解决,海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指 ...
【Oozie学习之一】Oozie
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 CM5.4 一.简介Oozie由Cloudera公司贡献给A ...
[转帖]Flink（一）Flink的入门简介
Flink(一)Flink的入门简介 https://www.cnblogs.com/frankdeng/p/9400622.html 一. Flink的引入这几年大数据的飞速发展,出现了很多热门的 ...
大数据学习笔记之Hadoop（一）：Hadoop入门
文章目录大数据概论一.大数据概念二.大数据的特点三.大数据能干啥? 四.大数据发展前景五.企业数据部的业务流程分析六.企业数据部的一般组织结构 Hadoop(入门) 一从Hadoop框架 ...

随机推荐

iOS 基础-----关于UIView 的 frame 与 bounds
首先,对于frame 大家都很熟悉,是当前view ,相对于其父视图view 的坐标,例如: UIView *view1 = [[UIView alloc] initWithFrame:CGRectM ...
关于Verilog中的几种赋值语句
1. 连续赋值语句(Continuous Assignments) 连续赋值语句是Verilog数据流建模的基本语句,用于对线网进行赋值,等价于门级描述,是从更高的抽象角度来对电路进行描述.连续赋值语 ...
台式机vim配置
set autoread syntax on "set number " filetype ident on "set autoindent "set expa ...
angular五种服务详解
在这之前angular学习笔记(十五)-module里的'服务'这篇文章里,已经大致讲解了ng中的'服务',在之后的很多地方也用到了服务,但是,所有的服务都是使用app.factory来创建的.但其实 ...
[CoreOS 转载]CoreOS实践指南（二）：架设CoreOS集群
转载:http://www.csdn.net/article/2015-01-04/2823399 摘要:CoreOS是一个采用了高度精简的系统内核及外围定制的操作系统.ThoughtWorks的软件 ...
[开源项目-MyBean轻量级配置框架] MyBean的特性和MyBean的开始
[概述] 自从mBean框架出生后,受到很多朋友的关注,在公司的外包项目中得到了不错的应用.由于mBean是公司的项目,不便开源,于是这几天利用晚上的时间和周末的时间重写了底层beanMananger ...
歌曲播放页面的数据vuex管理
1.state.js import {playMode} from '@/common/js/config' const state = { singer:{}, playing:false, ful ...
django后台显示图片而不是图片地址
修改admin代码 class Ad_CampaingAdmin(admin.ModelAdmin): list_display = ("content","previe ...
1. K-Means原理解析
1. K-Means原理解析 2. K-Means的优化 3. sklearn的K-Means的使用 4. K-Means和K-Means++实现 1. 前言我们在一开始的时候应该就说过,机器学习按 ...
可以用的远程maven地址
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://mave ...