背景说明:

在数据量较小,且数据源和装载地都是关系型数据库时,使用Kettle做ETL较为简便。

由于调度系统产品因为服务器环境方面的因素,而无法部署,故使用Linux的crontab定时器来制作简易调度系统是一个比较简便的解决方案。

本文旨在记录Kettle的部署及配置文件配置注意事项和如何自制简易调度系统,以便处理类似问题时方案的复用。

一、环境与工具

  • CentOS 6.7
  • JDK1.8/JDK1.7
  • pdi-ce-6.1.0.1-196.zip

二、Linux安装Kettle

2.1 安装JDK并配置环境变量

Kettle的运行需要jdk环境,所以需要先安装jdk。jdk的安装方法此处略去。

2.2 创建kettle用户

# useradd -m kettle

2.3 上传Kettle安装包并解压

创建kettle部署目录

# mkdir /opt/kettle

将安装包pdi-ce-6.1.0.1-196.zip上传至/opt/kettle目录下,并解压:

# unzip /opt/kettle/pdi-ce-6.1.0.1-196.zip

2.4 更改属主属组和执行权限

# chown -R kettle:kettle /opt/kettle
# chmod 755 /opt/kettle/pdi-ce-6.1.0.1-196/data-integration/*.sh

2.5 测试

切换至kettle用户

# su kettle

启动kettle的kitchen或pan

$ cd /opt/kettle/pdi-ce-6.1.0.1-196/data-integration/
$ ./kitchen.sh

如果能正常启动,则说明kettle安装成功。

2.6 配置文件设置

在/home/kettle/.kettle目录下有一个kettle.properties文件,在kettle程序启动时会读取这个文件配置的属性。这里一般可以将数据库的连接信息(包含ip,端口,数据库实例,用户名,密码等)以及自定的一些变量(如etl_path等)。

将这些连接信息配置在配置文件中,而在kettle脚本中使用这些变量名来代替,好处在与脚本的移植与复用时,不需要改动脚本,只需要修改配置文件即可。

三、简易调度系统制作

3.1 创建调度系统目录

  • 创建kettle脚本存放目录
# mkdir -p /opt/kettle/scripts
# mkdir -p /opt/kettle/scripts/jobs
# mkdir -p /opt/kettle/scripts/trans
  • 创建调度脚本存放目录
# mkdir -p /opt/kettle/scheduler
  • 创建日志存放目录
# mkdir -p /opt/kettle/logs

3.2 上传或创建调度脚本kettle_scheduler.sh

上传kettle_scheduler.sh文件到/opt/kettle/scheduler目录下。或者进入目录创建:

编辑文件:

# cd /opt/kettle/scheduler
# vim kettle_scheduler.sh

输入如下内容并保存:

#!/bin/bash
#
cd /opt/kettle/scripts/jobs/
date=`date +%Y%m%d`
files=`ls /opt/kettle/scripts/jobs/*.kjb`
for file in $files
do
file_name=`echo "$file" | awk -F '.' '{print $1}' | awk -F '/' '{print $6}'`
log_name="${file_name}-${date}.log"
mkdir -p /opt/kettle/logs/$file_name
/opt/kettle/pdi-ce-6.1.0.1-196/data-integration/kitchen.sh -file=$file -level=basic>>/opt/kettle/logs/$file_name/$log_name
done

3.3 修改权限

# chown -R kettle:kettle /opt/kettle
# chmod 755 /opt/kettle/scheduler/kettle_scheduler.sh

3.4 配置定时任务

进入crontab编辑界面

# crontab -e

输入如下内容,保存退出

1  0  *  *  *  chown -R kettle:kettle /opt/kettle/scripts
5  0  *  *  *  su - kettle -c "/opt/kettle/scheduler/kettle_scheduler.sh" &

四、调度系统的使用

4.1 kettle脚本的上线

上传开发好的kettle脚本到指定路径。

  • 将所有的kettle作业(以.kjb为后缀)上传至/opt/kettle/scripts/jobs目录下;
  • 将所有的kettle转换(以.ktr为后缀)上传至/opt/kettle/scripts/trans目录下。

这里开发kettle作业时,需要注意作业和转换的目录位置关系,比如可以在配置文件kettle.properties中配置etl_path=/opt/kettle/scripts。

4.2 日志查看

在/opt/kettle/logs目录下,每一个作业会新建一个对应名称的文件夹用于存储执行的日志,作业的每一次执行都会在这个文件夹下创建一个日志文件并加上日期。

例如,/opt/kettle/scripts/jobs目录下有个test.kjb的作业,则执行完后会在/opt/kettle/logs/test目录下创建一个test-20190823.log

# cd /opt/kettle/logs/test
# cat test-20190823.log

五、日志的清理

5.1 上传或创建日志清理脚本kettle_clean.sh

上传kettle_clean.sh文件到/opt/kettle/scheduler目录下。或者进入目录创建:

编辑文件:

# cd /opt/kettle/scheduler
# vim kettle_clean.sh

输入如下内容并保存:

#!/bin/bash
dir=/opt/kettle/logs
cd ${dir}
reserveDays=7 # 设置要保留的日志天数
sub_dirs=`ls ${dir}`
for sub_dir in ${sub_dirs}; do
count=$(ls ${sub_dir} | wc -l)
if [[ ${count} -gt ${reserveDays} ]]; then
cleanCnt=$((count-reserveDays))
files=$(ls ${dir}/${sub_dir} | head -n ${cleanCnt})
cd ${sub_dir}
rm -rf ${files}
cd ..
fi
done

5.2 更改属主属组和执行权限

# chown kettle:kettle /opt/kettle/scheduler/kettle_clean.sh
# chmod 755 /opt/kettle/scheduler/kettle_clean.sh

5.3 配置定时任务

进入crontab编辑界面

# crontab -e

增加一行如下内容,保存退出

0  2  *  *  *  su - kettle -c "/opt/kettle/scheduler/kettle_clean.sh"

部署Kettle做ETL开发并使用Crontab制作调度系统的更多相关文章

  1. 开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度

    1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳 ...

  2. kettle系列-4.kettle定制化开发工具类

    要说的话这个工具类还是比较简单的,每个方法体都比较小,但用起来还是可以的,把开发中一些常用的步骤封装了下,不用去kettle源码中找相关操作的具体实现了. 算了废话不多了,直接上重点,代码如下: im ...

  3. 【转载】在 2016 年做 PHP 开发是一种什么样的体验?(一)

    转自:https://www.v2ex.com/t/312651 在 2016 年做 PHP 开发是一种什么样的体验?(一) 嘿,我最近接到一个网站开发的项目,不过老实说,我这两年没怎么接触编程,听说 ...

  4. 从大公司做.NET 开发跳槽后来到小公司的做.NET移动端微信开发的个人感慨

    从14年11月的实习到正式的工作的工作我在上一家公司工作一年多了.然而到16年5月20跳槽后自己已经好久都没有在写博客了,在加上回学校毕业答辩3天以及拿档案中途耽搁了几天的时间,跳槽后虽然每天都在不停 ...

  5. 【转】在 2016 年做 PHP 开发是一种什么样的体验?(一)

    原文: https://www.v2ex.com/t/312651 在 2016 年做 PHP 开发是一种什么样的体验?(一) 嘿,我最近接到一个网站开发的项目,不过老实说,我这两年没怎么接触编程,听 ...

  6. ETL开发面试问题加吐槽加职业发展建议

    写在前面: 作为甲方,对于乙方派来的开发人员,我是会自己面一下.总体来说遇到的水平不一,于是经过这三年多的面(cui)试(can),总结了一套自己的面试套路,中间也遇到过很多想吐槽的东西,于是大概记录 ...

  7. 【转】Java做服务器开发语言

    版权声明:本文为博主原创文章,未经博主允许不得转载. 随着游戏市场的兴起,特别是网页游戏.手机游戏的崛起,对游戏开发技术的需求越来越多.网络游戏开发是一个庞大的体系,总体来说是客户端与服务器端.客户端 ...

  8. Windows 平台做 Python 开发的最佳组合

    在 Windows 上怎样做 Python 开发?是像大神那样使用纯文本编辑器,还是用更加完善的 IDE?到底是用自带的命令行工具,还是需要装新的 Terminal?本文将带你了解如何利用微软官方维护 ...

  9. Ubuntu部署python3.5的开发和运行环境

    Ubuntu部署python3.5的开发和运行环境 1 概述 由于最近项目全部由python2.x转向 python3.x(使用目前最新的 python3.5.1) ,之前的云主机的的默认python ...

随机推荐

  1. 个人永久性免费-Excel催化剂功能第101波-批量替换功能(增加正则及高性能替换能力)

    数据处理无小事,正如没有人活在真空理想环境一下,在数据分析过程中,也没有那么真空理想化的数据源可以使用,数据处理占据数据分析的80%的时间,每一个小小的改善,获益都良多.Excel查找替换,有其局限性 ...

  2. 个人永久性免费-Excel催化剂功能第53波-无比期待的合并工作薄功能

    合并工作薄.工作表功能,几乎每一款Excel插件都提供,而且系列衍生功能甚至有多达10多个.今天Excel催化剂重拾武器,在现有众多插件没提供到位的部分场景中,给予支持和补充,做到人有我优,人无我有的 ...

  3. Spark学习之第一个程序 WordCount

    WordCount程序 求下列文件中使用空格分割之后,单词出现的个数 input.txt java scala python hello world java pyfysf upuptop wintp ...

  4. python基础-python解释器多版本共存-变量-常量

    一.编程语言的发展史 机器语言-->汇编语言-->高级语言,学习难度及执行效率由高到低,开发效率由低到高 机器语言:二进制编程,0101 汇编语言:用英文字符来代替0101编程 高级语言: ...

  5. 仿制shazzam的简单功能,将hlsl转换为WPF中的ShaderEffect

    (此文章只是在对WPF的Effect产生兴趣才稍微研究了一点后面的知识;需要了解更多可参考https://archive.codeplex.com/?p=shazzam的源代码以及WPF基础知识) 1 ...

  6. Go语言圣经习题练习_1.7. Web服务

    练习 1.12: 修改Lissajour服务,从URL读取变量,比如你可以访问 http://localhost:8000/?cycles=20 这个URL,这样访问可以将程序里的cycles默认的5 ...

  7. iis8 php-cgi.exe - FastCGI 进程意外退出 500错误解决办法

    今天iis服务环境下的网站突然显示200错误php-cgi.exe - FastCGI 进程意外退出,昨天还好好的网站正常,这个问题一直偶尔出现几次,不是很频繁,但是偶尔会出现: 这是由于某些加载库加 ...

  8. Unity3D热更新之LuaFramework篇[09]--资源热更新与代码热更新的具体实现

    前言 在上一篇文章 Unity3D热更新之LuaFramework篇[08]--热更新原理及热更服务器搭建 中,我介绍了热更新的基本原理,并且着手搭建一台服务器. 本篇就做一个实战练习,真正的来实现热 ...

  9. 移动端H5多终端适配解决方案

    推荐三篇文章: 1.来自手淘团队的开源技术flexibal.js github地址:https://github.com/isHelenaChan/flexible 2.来自“大漠”(就职于淘宝,也是 ...

  10. Cookie和Session的使用详解

    我们在使用接口请求时经常听到Cookie和Session的知识,那么它们的实际意义和使用场景在哪里呢 ?    介绍如下 一.首先需要了解的是为什么需要有Cookie和Session这两个东西:Htt ...