azkaban学习笔记总结

01.工作流调度器azkaban

1. 任务调度概述

  • 一个完整的数据分析系统通常都是由大量任务单元组成:

    shell脚本程序,java程序,mapreduce程序、hive脚本等
  • 各任务单元之间存在时间先后及前后依赖关系

现成的开源调度系统,比如ooize、azkaban。

2. azkaban介绍

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

它有如下功能特点:

  • Web用户界面
  • 方便上传工作流
  • 方便设置任务之间的关系
  • 调度工作流
  • 认证/授权(权限的工作)
  • 能够杀死并重新启动工作流
  • 模块化和可插拔的插件机制
  • 项目工作区
  • 工作流和任务的日志记录和审计

3. azkaban安装部署

最好结合shell脚本来完成调度。

azkaban最好安装在master上,方便各种命令的执行。

Azkaban Web服务器:

azkaban-web-server-2.5.0.tar.gz

Azkaban执行服务器:

azkaban-executor-server-2.5.0.tar.gz

MySQL:

目前azkaban只支持 mysql,需安装mysql服务器,可以安装在某个节点之上(172.23.27.11),并建立了 root用户,密码 921015.

1.azkaban web服务器安装

1.解压

  1. tar zxvf azkaban-web-server-2.5.0.tar.gz
  2. mv azkaban-web-server-2.5.0 server

2.创建SSL配置

  1. keytool -keystore keystore -alias jetty -genkey -keyalg RSA

运行此命令后,会提示输入当前生成 keystor的密码及相应信息,输入的密码请劳记,信息如下:

输入keystore密码:

再次输入新密码:

输入相同密码921015

完成上述工作后,将在当前目录生成 keystore 证书文件,将keystore 考贝到 azkaban web服务器根目录中.

  1. cp keystore azkaban/server

3.配置文件

注:先配置好服务器节点上的时区

1、先生成时区配置文件Asia/Shanghai,用交互式命令 tzselect 即可

2、拷贝该时区文件,覆盖系统本地时区配置

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

修改conf/azkaban.properties

  1. default.timezone.id=Asia/Shanghai #时区
  2. database.type=mysql
  3. mysql.port=3306
  4. mysql.host=172.23.27.11
  5. mysql.database=azkaban #数据库实例名
  6. mysql.user=root
  7. mysql.password=921015
  8. # Azkaban Jetty server properties.
  9. jetty.maxThreads=25
  10. jetty.ssl.port=8443
  11. jetty.keystore=keystore
  12. jetty.password=921015
  13. jetty.keypassword=921015
  14. jetty.truststore=keystore
  15. jetty.trustpassword=921015

其余不修改。

修改conf/azkaban-users.xml,添加web访问用户密码

  1. <user username="admin" password="admin" roles="admin,metrics" />
2. azkaban 执行服务器executor配置

修改conf/azkaban.properties

  1. default.timezone.id=Asia/Shanghai #时区
  2. #数据库设置
  3. database.type=mysql
  4. mysql.port=3306
  5. mysql.host=172.23.27.11
  6. mysql.database=azkaban #数据库实例名
  7. mysql.user=root
  8. mysql.password=921015
3. azkaban脚本导入(MySQL配置)
  1. tar zxvf azkaban-sql-script-2.5.0.tar.gz

在安装了MySQL的节点

  1. mysql> create database azkaban;
  2. mysql> use azkaban;
  3. mysql> source /opt/azkaban-2.5.0/create-all-sql-2.5.0.sql;
4. 启动
  1. bin/azkaban-web-start.sh

或者启动到后台:

  1. nohup bin/azkaban-web-start.sh 1>/tmp/azstd.out 2>/tmp/azerr.out &

https://服务器IP地址:8443

  1. bin/azkaban-executor-start.sh

用户名密码:admin

3. command job示例

多依赖job示例

1. 创建job描述

第一个job:foo.job

  1. # foo.job
  2. type=command
  3. command=echo foo

第二个job:bar.job依赖foo.job

  1. # bar.job
  2. type=command
  3. dependencies=foo
  4. command=echo bar
2. 打包上传

将所有job资源文件打到一个zip包中。

在web页面中创建工程,并上传zip包。

可以设置调度时间和立即执行。

暂时先记录到这儿吧,以后再完善。

azkaben任务调度器的更多相关文章

  1. TaskScheduler一个.NET版任务调度器

    TaskScheduler是一个.net版的任务调度器.概念少,简单易用. 支持SimpleTrigger触发器,指定固定时间间隔和执行次数: 支持CronTrigger触发器,用强大的Cron表达式 ...

  2. 21 BasicTaskScheduler基本任务调度器(一)——Live555源码阅读(一)任务调度相关类

    21_BasicTaskScheduler基本任务调度器(一)——Live555源码阅读(一)任务调度相关类 BasicTaskScheduler基本任务调度器 BasicTaskScheduler基 ...

  3. 18 TaskScheduler任务调度器抽象基类——Live555源码阅读(一)任务调度相关类

    这是Live555源码阅读的第二部分,包括了任务调度相关的三个类.任务调度是Live555源码中很重要的部分. 本文由乌合之众 lym瞎编,欢迎转载 http://www.cnblogs.com/ol ...

  4. SpringBoot2 task scheduler 定时任务调度器四种方式

    github:https://github.com/chenyingjun/springboot2-task 使用@EnableScheduling方式 @Component @Configurabl ...

  5. Spark源码剖析 - SparkContext的初始化(五)_创建任务调度器TaskScheduler

    5. 创建任务调度器TaskScheduler TaskScheduler也是SparkContext的重要组成部分,负责任务的提交,并且请求集群管理器对任务调度.TaskScheduler也可以看作 ...

  6. C# 可指定并行度任务调度器

    可指定并行度的任务调度器 https://social.msdn.microsoft.com/Forums/zh-CN/b02ba3b4-539b-46b7-af6b-a5ca3a61a309/tas ...

  7. springMVC + quartz实现定时器(任务调度器)

    首先我们要知道任务调度器(定时器)有几种,这边我会写三种 第一种是基于JDK的本身的一个定时器(优点:简单,缺点:满足不了复杂的需求) package com.timer1; import java. ...

  8. 基于Spring Task的定时任务调度器实现

    在很多时候,我们会需要执行一些定时任务 ,Spring团队提供了Spring Task模块对定时任务的调度提供了支持,基于注解式的任务使用也非常方便. 只要跟需要定时执行的方法加上类似 @Schedu ...

  9. Windows:任务调度器

    Windows 服务器系列: Windows:查看IP地址,IP地址对应的机器名,占用的端口,以及占用该端口的应用程 Windows:使用Dos命令管理服务(Services) Windows:任务调 ...

随机推荐

  1. PHP系列目录

    原文:PHP系列目录 PHP系列的对象是已经熟悉了一门或多门语言的开发人员.如果你是其中一份子,而且你也打算学习PHP,相信你根据本系列会很快掌握PHP的.欢迎大家给出意见或建议.同时也欢迎大家的批评 ...

  2. TODOList项目

    [ 爱上Swift]十二期:TODOList项目   好久没有写Swift甚是想念,Swift,Xcode都比较稳定了写个程序熟悉一下,当然时间原因都是小Demo,废话不多说先上图. 下面是跑起来之后 ...

  3. JSON数据转换方法 parse()和stringify()

    将对象转换成JSON格式的文本数据 var str = JSON.stringify(data); 将对象转换成JSON对象的方法 var data = JSON.parse(str);

  4. 用Inno Setup制作WEB程序安装包

    原文 用Inno Setup制作WEB程序安装包 最近做了一个WEB程序的安装包,我把制作的过程做个介绍,贴出源码给大家做个参考 看看inno 的脚本 [Setup] AppCopyright=tes ...

  5. 附加没有LDF的数据库文件

    原文:附加没有LDF的数据库文件 如果你只下载了数据文件,没有LDF文件,那么附加的时候选择使用ATTACH_REBUILD_LOG. 命令类似: USE [master] GO CREATE DAT ...

  6. 【转】浏览器DNS 预取读技术的危害

    今天中午在http://news.ycombinator.com/news看到一篇文章标题: Saved 10 billion DNS queries per month by disabling D ...

  7. Oracle入门4-REF Cursor

    Oracle入门4-REF Cursor 转自:http://blog.sina.com.cn/s/blog_55dbebb00100gxsc.html 自:http://blog.csdn.net/ ...

  8. AJAX 表单提交 文件上传

    1. AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术.通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新.这意味着可以在不重新加载 ...

  9. Javascript实例技巧精选(6)—滚动鼠标中键读取Json数据分页显示网页内容

    >>点击这里下载完整html源码<< 截图如下: 滚动鼠标中键读取Json数据分页显示网页内容,关键的Javascript如下: <script type="t ...

  10. ListNode线性表

    不常用,可以看一下实现原理 namespace UnilateralismChainTable { // 结点类 public class ListNode { public ListNode(int ...