Kettle定时执行（ETL工具）【转】

1，Kettle跨平台使用。
    例如：在AIX下（AIX是IBM商用UNIX操作系统，此处在LINUX/UNIX同样适用），运行Kettle的相关步骤如下：
    1）进入到Kettle部署的路径
    2）执行 chmod *.sh，将所有shell文件添加可执行权限
    3）在Kettle路径下，如果要执行transformation，就运行./pan.sh -file=?.ktr -debug=debug -log=log.log
    其中。-file说明你要运行的transformation文件所在的路径；-debug说明日志输出的级别；-log说明日志输出的路径
    4）同理，对于job的执行，请将./pan.sh更换成./kitchen.sh，其他部分说明不变。

2，Kettle环境变量使用。
在transformation中，Core Objects-->Job-->Set Variables，可以设置环境变量，对于绝对路径和相对路径的转换很有帮助，Kettle的跨平台很大程度依靠它

3，其它功能的使用。
其它功能包括DB存储过程调用，流查询，值映射，聚合记录等，各位自行摸索

4，Kettle定时功能。
在Job下的start模块，有一个定时功能，可以每日，每周等方式进行定时，对于周期性的ETL，很有帮助。

a.使用资源库（repository）登录时，默认的用户名和密码是admin/admin。

b.当job是存放在资源库（一般资源库都使用数据库）中时，使用Kitchen.bat执行job时，需使用如下的命令行：
Kitchen.bat /rep kettle /user admin /pass admin /job job名

c.当job没有存放在资源库而存放在文件系统时，使用Kitchen.bat执行job时，需使用如下的命令行：
Kitchen.bat /norep /file user-transfer-job.kjb

d.可以使用命令行执行job后，就可以使用windows或linux的任务调度来定时执行任务了

e.如果出现异常语句，

Unexpected error during transformation metadata load
No repository defined!

请按上面的操作排除。

5,Kettle经验之日志。
Kettle对于日志的处理，存在一个BUG，看过上一篇的人或许已经看到了我的留言，Kettle对于日志处理有一个BUG，当日志多于49M（不是50M，也不是49M），Kettle就会自动停止，这一点我在源码里面也没有找到对应的设置和约束，原因还找不到，因为是日志没有写，所以原因也不好跟踪还不知道具体原因。

6，Kettle之效率提升。
    Kettle作为一款ETL工具，肯定无法避免遇到效率问题，当很大的数据源输入的时候，就会遇到效率的问题。对此有几个解决办法：
    1）数据库端创建索引。对需要进行查询的数据库端字段，创建索引，可以在很大程度上提升查询的效率，最多的时候，我不创建索引，一秒钟平均查询4条记录，创建索引之后，一秒钟查询1300条记录。
    2）数据库查询和流查询注意使用环境。因为数据库查询为数据输入端输入一条记录，就对目标表进行一次查询，而流查询则是将目标表读取到内存中，数据输入端输入数据时，对内从进行查询，所以，当输入端为大数据量，而被查询表数据量较小（几百条记录），则可以使用流查询，毕竟将目标表读到内存中，查询的速度会有非常大的提升（内存的读写速度是硬盘的几百倍，再加上数据库自身条件的制约，速度影响会更大）。同理，对于目标表是大数据量，还是建议使用数据库查询，不然的话，一下子几百M的内存被干进去了，还是很恐怖的。
    3）谨慎使用javascript脚本，因为javascript本身效率就不高，当你使用js的时候，就要考虑你每一条记录，就要执行一次js所需要的时间了。
    4）数据库commit次数，一条记录和一百条记录commit对效率的影响肯定是不一样的。
    5）表输入的sql语句的写法。有些人喜欢在表输入的时候，将所有关联都写进去，要么from N多个表，要么in来in去，这样，就要面对我在2）里面说道的问题，需要注意。
    6）注意日志输出，例如选择数据库更新方式，而且日志级别是debug，那么后台就会拼命的输出日志，会在很大程度上影响速度，此处一定要注意。

7，常见的调试BUG。
    Kettle提供了很多调试的解决办法，但是对于常见的调试BUG还是能避免就避免。
    1）路径问题。我最常遇到的问题就是在windows下调试成功，但是部署到UNIX下出问题，忘记将windows下路径变成unix下，经常会出现问题。
    2）输出端，数据库插入更新选择不对。输出端，提供了三种数据库输出的办法，数据库输出，插入/更新，更新，对于这三种，各有利弊，如果你知道数据库输出，完全是插入，如果有重复数据，则会报错；插入更新和更新，因为更新数据时，后台输出很多日志，会导致效率很低。

Kettle定时执行（ETL工具）【转】的更多相关文章

Kettle定时执行
1,Kettle跨平台使用. 例如:在AIX下(AIX是IBM商用UNIX操作系统,此处在LINUX/UNIX同样适用),运行Kettle的相关步骤如下: 1)进入到Kettle部署的路径 ...
linux上Kettle定时执行（转换的单步执行，job的单步执行，环境变量，kettle定时功能，效率问题等）转自（http://blog.csdn.net/feng19821209/article/details/5800960）
1,Kettle跨平台使用. 例如:在AIX下(AIX是IBM商用UNIX操作系统,此处在LINUX/UNIX同样适用),运行Kettle的相关步骤如下: 1)进入到Kettle部署的路径 ...
Sqool与kettle开源的ETL工具
现在的ETL都是基于管道的模式(数据流)运行,比较有名的有 TaskCTL ========================================== 数据抽取的开源工具一个是RDBMS ...
开源作业调度工具实现开源的Datax、Sqoop、Kettle等ETL工具的作业批量自动化调度
1.阿里开源软件:DataX DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL.Oracle等).HDFS.Hive.ODPS.HBase.FTP等各种异构数据源之间稳 ...
开源ETL工具kettle--数据迁移
背景因为项目的需求,须要将数据从Oracle迁移到MSSQL,不是简单的数据复制,而是表结构和字段名都不一样.甚至须要处理编码规范不一致的情况,例如以下图所看到的 watermark/2/text/ ...
开源ETL工具之Kettle介绍
What 起源 Kettle是一个Java编写的ETL工具,主作者是Matt Casters,2003年就开始了这个项目,最新稳定版为7.1. 2005年12月,Kettle从2.1版本开始进入了开源 ...
Kettle实现数据抽取、转换、装入和加载数据-数据转移ETL工具
原文地址:http://www.xue51.com/soft/5341.html Kettle是来自国外的一款开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需 ...
开源ETL工具kettle系列之常见问题
开源ETL工具kettle系列之常见问题摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
ETL工具kettle基本使用
1.下载kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.z ...

随机推荐

【IOS】分享下近一年IOS开发的经验总结
从上个暑假末到现在,自己做IOS开发也快一年了.从一开始的什么都不知道,到现在大多事都能搭上一两手,期间经历了很多事情.下面来和大家分享一下心得和感触. 1.现在移动领域的知识更新的很快,无论是IOS ...
MyBatis对不同数据库的主键生成策略
本文转自:http://289972458.iteye.com/blog/1001851 http://hi.baidu.com/zim_it/blog/item/8a2bd11205f5b56ec ...
bnuoj 1071 拼图＋＋（BFS+康拓展开）
http://www.bnuoj.com/bnuoj/problem_show.php?pid=1071 [题意]:经过四个点的顺逆时针旋转,得到最终拼图 [题解]:康拓展开+BFS,注意先预处理,得 ...
用C#实现控制台进度条
在写一些简单的控制台测试程序时,经常希望能够在程序运行的过程中实现进度条的功能以便查看程序运行的速度或者进度.本文以C#为例,实现简单的控制台进度条,以供大家参考(本文底部附下载地址). 1.实现效果 ...
1509 -- Glass Beads POJ
题意:求一个字符串的最小表示的开始下标就当模板题写了把字符串重复一遍,再建后缀自动机,贪心的选最小字典序在上面走len步因为走出来的一定是子串,长度又是len,所以一定是原来的字符串旋转得到的, ...
zTree -- jQuery 树插件
http://www.ztree.me/v3/main.php#_zTreeInfo http://plugins.jquery.com/zTree.v3/ 例子:http://www.ztree.m ...
Notepad++ 右键菜单自定义配置
问:想在右键菜单里面多加几个功能,怎么加,比如区块注释答:其实notepad++的配置文件存放路径不在自己的软件路径,而存在于 xp:C:\Documents and Settings\Admini ...
POJ1260Pearls
http://poj.org/problem?id=1260 题意 :这个题大概是讲,给你几种等级不同的珠宝,然后告诉你它的数量和价值,等级是升序排列的,且随等级的升高价值也随之升高,但为了防止有的客 ...
android 内部存储相关知识点： getfilestreampath getDir 子文件夹
文件系统的API的命名方式和常规的不一样: 都是get命名,但是功能就是能创建文件夹... 这种方式的API 命名习惯和常规的不一样... createXXX ----方便查找 http://i ...
Android UI-开源框架ImageLoader的完美例子
Android开源框架ImageLoader的完美例子 2013年8月19日开源框架之Universal_Image_Loader学习很多人都在讨论如何让图片能在异步加载更加流畅,可以显示大量图片, ...

Kettle定时执行（ETL工具）【转】

Kettle定时执行（ETL工具）【转】的更多相关文章

随机推荐

热门专题