linux环境下kettle部署(JDK安装配置,kettle安装配置,资源库配置,定时执行job)
一.部署准备
1.1 java安装(略)
1.2 JDK配置
1. 命令行键入“cd /etc”进入etc目录
2. 命令行键入“vi profile”打开profile文件
3. 敲击键盘ctrl+F到文件末尾
4. 在末尾处,即第一个~的地方,敲击键盘将以下内容输入到文件
export JAVA_HOME=/usr/java/jre1.6.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
5. 键盘敲击exc,命令行键入“:wq”,保存文件;
JDK配置成功:
1. 命令:java -version.出现版本信息
2. 命令:echo ${JAVA_HOME}出现配置路径
二.kettle部署
1.在linux下某个目录下创建一个文件夹,将你从官网上下载的kettle(我的是pdi-ce-5.0.1.A-stable.zip)解压后放在该文件夹
下。
2.在解压的路径下找到kitchen.sh所在的路径,进入该目录,通过chmod +x *.sh赋予.sh文件执行权限。
下面是详细说明:
键入./kitchen.sh,看输入信息
BASH:/ kitchen.sh的:权限被拒绝
从上面可以看出kitchen.sh缺少执行权限,我们再次进入看看文件盒文件夹的权限
从上面可以看出,此目录下面的.sh文件都没有执行权限(X),接下来我们给这个文件夹下面的所有.sh文件赋执行的权限
由上面的我们可以看出,赋权成功!
再次./kitchen.sh,回车 看输出信息--
可以看到上面出现 -rep,-user,-pass 这些kettle中的帮助信息,说明kettle部署成功!
3.输入命令./kitchen.sh。如果出现帮助信息说明部署成功。
4.配置资源库
用数据库作用kettle资源库会在数据库中建立很多表,所以就选择用文件资源库的方式。如果单纯的使用文件方式而非文件资源库的方式,在job引用转换的时候要选择文件本地路径,从windows移植到linux中路径就出现问题,虽然可以手动修改一下,但是每次都修改就烦人了。
使用文件资源库就简单多了。
当然,使用资源库就需要上传.kettle文件夹到linux,Windows中的.kettle文件夹在Administrator中。如果在linux中使用过kettle的话,在用户目录下会自动建好.kettle文件夹,如果没有使用过,可能还没有这个文件夹,那就手动创建。不过创建了也并不可见。位置在/home/user/.kettle。我的是在kettle用户根目录下。.kettle文件夹是隐藏的通过“ls -a”命令查看隐藏文件夹。
我的资源库内容:repositories.xml
- <?xml version="1.0" encoding="UTF-8"?>
- <repositories>
- <repository> <id>KettleFileRepository</id>
- <name>fileRepository</name>
- <description>filereposity</description>
- <base_directory>C:\Data\kettleRepository</base_directory>
- <read_only>N</read_only>
- <hides_hidden_files>N</hides_hidden_files>
- </repository> </repositories>
<base_directory>部分是在windows下的资源库路径,上传到linux中需要改为linux下的资源库路径。然后可以将windows下设计好的转换和job都放到这个文件夹下。
- <?xml version="1.0" encoding="UTF-8"?>
- <repositories>
- <repository> <id>KettleFileRepository</id>
- <name>fileRepository</name>
- <description>filereposity</description>
- <base_directory>/home/kettle/etl_kettle/kettle/etl_kettle/job</base_directory>
- <read_only>N</read_only>
- <hides_hidden_files>N</hides_hidden_files>
- </repository> </repositories>
最后是调用job脚本:/opt/kettle/data-integration/kitchen.sh -rep=fileRepository -job=testjob
指定资源库ID和job名称。
我的是获取svn上的路径。所以需要在linux下安装svn。
命令:svn co http://svn.1234.cn:1111/svn/trunk/etl_kettle
更新svn文件夹的命令:svn up
svn的路径是放在linux下的资源库路径 下
5.手动执行.sh脚本例子:
mmmm.sh
#!/bin/bash
#导入中文编码
export LANG="en_US.UTF-8"
#读取执行环境变量
#source ~/.bash_profile
#设置日期变量
to_date=`date +%Y%m%d`
##go to kettle soft dir
/home/kettle/etl_kettle/data-integration/kitchen.sh -rep etl_kettle -user admin -pass -dir -job job/ETL_mmmm_JOB -level=basic >/home/kettle/etl_kettle/etl_log/mmmm_${to_date}.log
echo "执行完成!"
命令:.mmmm.sh
6.设定crontab定时执行任务(ubuntu)
cron是一个Linux下的后台进程,用来定期的执行一些任务。因为我用的是Ubuntu,所以这篇文章中的所有命令也只能保证在Ubuntu下有效,但其他系统应该也差不多。
想要让cron执行你指定的任务,首先就要编辑crontab文件。crontab是一个文本文件,用来存放你要运行的命令。你可以以下命令
- crontab -e
来打开你的用户所属的crontab文件。第一次用这个命令,会让你选择文本编辑器,我选的是vim。选定的编辑器也可以使用
- select-editor
命令来更改。这点命令行中已经有足够的提示,就不多说了。
打开后的crontab文件类似这种样子:
- # m h dom mon dow command
- */2 * * * * date >> ~/time.log
第二行是我为了测试写的一个定期任务,它的意思是,每隔两分钟就执行 date >> ~/time.log 命令(记录当前时间到time.log文件)。你可以把它加入你的crontab中,然后保存退出。可以在第二行写你自己的设定任务。
我的任务:
40 16 * * * /home/kettle/etl_kettle/kettle/etl_kettle/shell/etl_mmmm.sh &
意思是在/home/kettle/etl_kettle/kettle/etl_kettle/shell/这个目录下在后台(&是后台执行的意思)执行etl_mmmm.sh这个文件
保存了crontab之后,我们还需要重启cron来应用这个计划任务。使用以下命令:
- sudo service cron restart
下面稍微解释下crontab中每行的含义。crontab中的每一行代表一个定期执行的任务,分为6个部分。前5个部分表示何时执行命令,最后一个部分表示执行的命令。每个部分以空格分隔,除了最后一个部分(命令)可以在内部使用空格之外,其他部分都不能使用空格。前5个部分分别代表:分钟,小时,天,月,星期,每个部分的取值范围如下:
分钟 0 - 59
小时 0 - 23
天 1 - 31
月 1 - 12
星期 0 - 6 0表示星期天
除了这些固定值外,还可以配合星号(*),逗号(,),和斜线(/)来表示一些其他的含义:
星号 表示任意值,比如在小时部分填写 * 代表任意小时(每小时)
逗号 可以允许在一个部分中填写多个值,比如在分钟部分填写 1,3 表示一分钟或三分钟
斜线 一般配合 * 使用,代表每隔多长时间,比如在小时部分填写 */2 代表每隔两分钟。所以 */1 和 * 没有区别
*/2 可以看成是能被2整除的任意值。
以下是一些例子(省略了命令部分):
- * * * * * # 每隔一分钟执行一次任务
- 0 * * * * # 每小时的0点执行一次任务,比如6:00,10:00
- 6,10 * 2 * * # 每个月2号,每小时的6分和10分执行一次任务
- */3,*/5 * * * * # 每隔3分钟或5分钟执行一次任务,比如10:03,10:05,10:06
以上就是在cron中加入计划任务的基本知识。因为cron中的任务基本就是执行命令行,所以当然也会有权限问题。以上例子中的任务就是以你当前登录用户的权限执行的,如果你需要以root用户执行某个任务,可以在crontab前加上sudo。
- sudo crontab -e
顺带一提,crontab文件对每个用户都是不同的,所以刚才设置的定期看时间的任务,在这里是看不到的。因为我们没有为root用户增加这样的计划任务。
linux环境下kettle部署(JDK安装配置,kettle安装配置,资源库配置,定时执行job)的更多相关文章
- mosquitto在Linux环境下的部署/安装/使用/测试
mosquitto在Linux环境下的部署 看了有三四天的的源码,(当然没怎么好好看了),突然发现对mosquitto的源码有了一点点感觉,于是在第五天决定在Linux环境下部署mosquitto. ...
- Kafka~Linux环境下的部署
概念 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素. 这些数据 ...
- 在linux环境下tomcat 指定 jdk或jre版本
最近在服务器上部署的服务出了点问题,后来查到是因为JDK版本太高了,程序识别不了,需要把JDK降级. 但是服务器上面跑的程序很多,又不能直接把环境变量改了,所以只能想着怎么把这个出问题的工程服务指定j ...
- Mongodb~Linux环境下的部署
< mongodb服务脚本的制作> Mongodb这个文档型非关系型数据库,可以说它是最像关系型的了,之前大叔主要讲如何使用mongodb,而没有说过如何去部署和安装它,而今天大叔有必要讲 ...
- Zookeeper~Linux环境下的部署
介绍 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件.它是一个为分布式应用提供一致性服务的软件,提 ...
- Linux环境下,MongoDB 3.6.10 的安装步骤,以及设置用户和密码,配置随处执行mongo命令启动客户端,以及所遇到的问题
https://blog.csdn.net/qinaye/article/details/87920651 二.设置MongoDB用户和密码2.1 利用./mongo命令连接mongoDB客户端../ ...
- Linux 环境下自动化测试工具,Redhat dogtail的安装
dogtail基于Accessibility(a11y)的GUI图形界面测试工具和自动化框架可以与linux桌面应用程序进行交互操作. dogtail是用Python语言写的.dogtail的测试脚本 ...
- Redis~Linux环境下的部署
回到目录 Redis的生产环境建议部署到linux上,而在开发时可以连接windows版本,下面介绍如何在linux上部署redis. $ wget http://download.redis.io/ ...
- Mongodb~Linux环境下的部署~服务的部署与自动化
<mongodb在linux上的部署> 事实上redis安装程序挺好,直接帮我们生成了服务,直接可以使用systemctl去启动它,而mongodb在这方面没有那么智能,需要我们去编写自己 ...
- Jexus~Linux环境下的部署
Jexus 即 Jexus Web Server,简称JWS,是Linux平台上的一款ASP.NET WEB服务器,是 Linux.Unix.FreeBSD 等非Windows系统架设 ASP.NET ...
随机推荐
- Android 关于apk 打包后的地图定位和导航失败的问题
项目中,使用了高德地图定位,调试的debug包定位完全没有问题,但是签名打包后,却始终无法定位,发现是测试环境下的SHA1码和签名发布版的SHA1码是不同的. 所以我们需要获取发布版的SHA1码: 方 ...
- Struts2_用Action的属性接收参数
先在 Action 中定义要接收的属性,需要编写属性的getter 和 setter 方法 struts2 会自动帮我们把 String 类型的参数转为 Action 中相对应的数据类型. priva ...
- python3绘图示例2(基于matplotlib:柱状图、分布图、三角图等)
#!/usr/bin/env python# -*- coding:utf-8 -*- from matplotlib import pyplot as pltimport numpy as npim ...
- 使用ajax实现简单的带百分比进度条
需求:当进行文件上传保存等操作时,能在页面显示一个带百分比的进度条,给用户一个好的交互体验 实现步骤 JSP页面 1.添加table标签 <table id="load" w ...
- MySQL子查询有哪五种形式?
MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,目前属于Oracle旗下产品.MySQL是最流行的关系型数据库管理系统之一,在web应用方面,MySQL是最好的RDBMS(Rela ...
- 虚拟机的NAT模式连接centos7配置静态IP连接外网
小小的配置,各种五花八门的介绍. 1.打开VMWare->编辑->虚拟网络编辑器->点击更改设置 2.选中VMnet8->取消使用本地DHCP服务将IP地址分配给虚拟机-> ...
- Python-Django框架学习笔记——第一课:Hello World
Python Django 有诗云: 孤山寺北贾亭西,水面初平云脚低. 几处早莺争暖树,谁家新燕啄春泥. 乱花渐欲迷人眼,浅草才能没马蹄. 最爱湖东行不足,绿杨阴里白沙堤. 今天在信阳游玩,有幸来到信 ...
- 转:SSM框架——使用MyBatis Generator自动创建代码
转:https://blog.csdn.net/zhshulin/article/details/23912615 这两天需要用到MyBatis的代码自动生成的功能,由于MyBatis属于一种半自动的 ...
- PHP设计模式练习——制作简单的投诉页面
---恢复内容开始--- <?php /* * 设计模式练习 * 1.数据库连接类(单例模式) * 2.调用接口实现留言本功能(工厂模式) * 3.实现分级举报处理功能(责任链模式) * 4.发 ...
- DESCryptoServiceProvider 类加密解密
DESCryptoServiceProvider 点击查看介绍 加密解密辅助类:点击查看 私钥加密 定义:定义一个包装对象来访问加密服务提供程序 (CSP) 版本的数据加密标准 (DES) 算法. ...