kettle 并行作业

2024-10-05

Kettle系列: Kettle并行执行Trans后的合并问题

我们在作业开发中为了处理效率, 经常需要并行执行一些trans, 等它们执行完毕后, 需要执行另外一些trans, 从流程上也就是分支+汇合. 粗看起来很简单, Kettle中对接一下这些组件就搞定了, 效果如下: 这是一个错误的设计, 如果这么简单没有必要写在博客备忘了. 它的执行效果是: 只要有一个分支执行完毕, 就会执行一次汇总分支, 上面的设计有两个分支, 汇总分支就被执行了两次, 显然不是我们预期的. 在上图基础上使用信号文件来改造一下, 设计图如下: 这个设计总体上是没有问题的, 每

KETTLE并行

1.转换的并行转换的并行是改变复制的数量上面的转换相当于下面的: 实际是把一个任务拆成三部分执行,相当于在一个数据库连接中做了三次查询,数据库连接的开销没有增加,但是有三个进程一起执行. 2.job的并行执行只需要在"START"设置即可. 建议:将job的条目都做成子job.(To do this, we suggest you wrap up the parallel work in a separate Job.) 注意,并行执行时,job条目不会按顺序执行,所以有依赖性的

Kettle入门--作业和转换的使用

本来想在centos7下部署的,发现因为java版本的问题,无法成功部署,无奈,转到windows平台(后来找到解决方法了,在centos7系统下yum install webkitgtk* -y 就可以了,注意执行spoon.sh时需要在桌面环境下执行,我直接在xshell下执行,会报错,无法弹出图形界面) 下载地址 https://jaist.dl.sourceforge.net/project/pentaho/Pentaho%208.0/client-tools/pdi-ce-8.0.0.

kettle 创建作业发送邮件

1.创建作业 . 2. 发送邮件配置,测试邮件发件地址可以使用的QQ.126.163等邮箱 smtp server的填写smtp.qq.com或者smtp.126.com等等都可以这里我用Q163邮箱发的邮件,自然也用Q163的smtp了 port 默认端口基本上都是25

如何在命令行下运行kettle的作业（job）和转换（transform）

pan 是执行转换的. Pan.bat /file C:\test.ktr /logfile c:\log.txt /level Basic kitchen是执行job的. kitchen.bat /file C:\test.kjb /logfile c:\log.txt /level Basic 更多资料可参考:http://wiki.pentaho.com/pages/viewpage.action?pageId=13175229#Kitchen%EC%82%AC%EC%9A%A9%EC%9

BI之ETL学习（一）kettle

最近开始折腾数据,起源是多业务数据源需要转换到数据分析平台.这个过程需要跨机器,跨库.同时还需要将业务数据表的内容进行转换,合并,清洗等等操作. 经过多方选型,最终决定使用kettle来作为数据抽取处理的工具. 但是,在这里,是想吐槽下kettle这东西的问题. 1.kettle的版本使用的是5.1,搭建了一个kettle的集群之后,经常遇到的问题就是虚拟文件系统异常,作业,或者转换 "is a not a file.".网上找到的解决办法是远程上传的作业是xml,但是缺乏XML头,因

利用Jenkins自动部署工具间接构建kettle的调度平台

关于Jenkins的介绍我就不说了,自己百度,因为这个工具调用脚本只是他的功能的冰山一角,其他功能我也不能理解,因为不是那个领域. 下面我就介绍一下为什么我们需要一个调度平台,以及学习完jenkins后,能解决什么问题.然后在开始讲解安装部署,然后再讲一下怎么调用kettle作业(和处理作业依赖) 1.为什么我们需要调度平台? 2.答:可能大部分人对于kettle的调度还是停留在win的计划任务,linux的cron, 但是作业越来越多,作业之间相互依赖,(例如:A作业,b作业,

ETL工具--kettle篇（17.10.09更新）

ETL是EXTRACT(抽取).TRANSFORM(转换).LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块.当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等.这里我们聊聊kettle的学习吧(如果你有一定的kettle使用,推荐看看Pentaho Kettle解决方案,这里用kettle实践kimball的数据仓库理论.). 内

Kettle日志中BootFeaturesInstaller错误

到新公司接手了别人的Kettle ETL作业. 发现每次启动 Kettle ,日志中都会出现下面的错误,虽然不影响运行结果,但是看着不爽: 18:41:15,327 INFO [KarafInstance] ******************************************************************************* *** Karaf Instance Number: 2 at /server/software/pdi-ce-6.1.0.1-19

Kettle命令行使用说明

Kettle命令行使用说明 1.Pan——转换执行器用来执行转换.参数与Kitchen类似,如下. 1- -version显示版本信息 2- -file=filename运行xml文件 3- -param:key=value指定命名参数 4- -log=logging filename 设置日志文件 5- -level=logging level 设置日志级别 Error:只显示错误 Nothing:不显示任何输出 Minimal:只使用最少的记录 Basic:这是默认的基本日志记录级别

Kettle日常使用汇总整理

Kettle日常使用汇总整理 Kettle源码下载地址: https://github.com/pentaho/pentaho-kettle Kettle软件下载地址: https://sourceforge.net/projects/pentaho/files/Data%20Integration kettle-plugin源码下载地址: https://gitee.com/nivalsoul/kettlePlugins#%E8%87%AA%E5%AE%9A%E4%B9%89%E8%BE%93

LSF作业管理系统使用方法

查看LSF计算节点列表bhosts # bhosts HOST_NAME STATUS JL/U MAX NJOBS RUN SSUSP USUSP RSV fat01 ok - 16 0 0 0 0 0 fat02 ok - 16 0 0 0 0 0 fat03 ok - 16 0 0 0 0 0 fat04 ok - 16 0 0 0 0 0 fat05 ok - 16 0 0 0 0 0 fat06 ok - 16 0 0 0 0 0 fat07 ok - 16 0 0 0 0 0 fat

结合Mysql和kettle邮件发送日常报表_20161001

十一假期参加婚礼稍晚点发博整体流程步骤是: 写SQL-导出到excel设定excel模板调整格式-设置kettle转换--设置kettle邮件作业--完成第一.写SQL 保持最近12个周的数据 SELECT city AS 城市,DATE_FORMAT(order_date,"%x%v") AS 年周, CASE ),INTERVAL WEEK) ),INTERVAL WEEK) ),INTERVAL WEEK)),"周"),CONCAT(DATE_FORM

kettle及数据库导数_20160920

一.kettle是什么. Kettle是一款国外开源的ETL( Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的过程)工具,纯java编写,可以在Window.Linux.Unix上运行,数据抽取高效稳定.Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. 二.kettle安装具体安装步骤参考 http://jingy

SAP RFC

什么是RFC? RFC是SAP系统和其他(SAP或非SAP)系统间的一个重要而常用的双向接口技术,也被视为SAP与外部通信的基本协议.简单地说,RFC过程就是系统调用当前系统外的程序模块,从而实现某个功能,而且调用系统和被调用系统中至少有一个必须是SAPABAP系统.这种远程功能调用也可在同一系统内部进行(如本地SAP系统内的远程调用):但通常情况下,调用程序和被调用程序处于不同系统. RFC调用过程在系统间通信过程中,需区分发送系统和接受系统.RFC调用请求从发送系统(调用系统)中传至接收系

【转】windows和linux中搭建python集成开发环境IDE

本系列分为两篇: 1.[转]windows和linux中搭建python集成开发环境IDE 2.[转]linux和windows下安装python集成开发环境及其python包 3.windows和linux中搭建python集成开发环境IDE——如何设置多个python环境 http://blog.csdn.net/pipisorry/article/details/39854707 使用的系统及软件Ubuntu / windowsPython 2.7 / python 3Pycharm 2.

SAP学习日志--RFC REMOTE FUNCTION CALL

RFC Remote function Call 远程功能调用, 是SAP系统之间以及非SAP系统之间程序通信的基本接口技术. 例如BAPI , ALE都是基于RFC实现的 SAP系统提供了三种外部接口 1. 通信接口(communication interface) 2. 文件I/O接口(file I/O interface) 3. 数据库接口(data interface) RFC位于程序通信接口中,以实现外部程序对SAP系统内部数据的访问. RFC是基

Spring Batch 批处理框架

<Spring Batch 批处理框架>基本信息作者: 刘相出版社:电子工业出版社ISBN:9787121252419上架时间:2015-1-24出版日期:2015 年2月开本:16开页码:404版次:1-1 内容简介<Spring Batch 批处理框架>本书全面.系统地介绍了批处理框架Spring Batch,通过详尽的实战示例向读者展示了Spring Batch框架对大数据批处理的基本开发能力,并对框架的架构设计.源码做了特定的剖析:在帮助读者掌握Spring Batc

Rhel6-torque作业调度系统配置文档

系统环境: rhel6 x86_64 iptables and selinux disabled 主机: 192.168.122.121 server21.example.com 计算节点 192.168.122.173 server73.example.com 计算节点 192.168.122.135 server35.example.com 调度节点(注:时间需同步) 所需的包:icpi-64 torque-4.1.2.tar.gz 相关网址:http://www.clusterresour

sge学习（转）

转自http://biancheng.dnbcw.info/linux/417992.html 命令: qsub - submit a batch job to Grid Engine. qsh - submit an interactive X-windows session to Grid Engine. qlogin - submit an interactive login session to Grid Engine. qrsh - submit an inter

MySQL_财务统计各产品品类各城市上周收入毛利表_20161202

注:财务需要统计各产品品类各城市上周毛利情况下面这样的表是沟通后展现的形式.数据展现形式我认为的大都是行列转列转行的转置从财务角度这样展现形式比较适合. 由于黄色部分为汇总项目,因此我拆分成9个转换步骤类似纵向合并只是汇总和各品类的字段不同无法纵向合并因此用kettle时候汇总的各自成一个步骤,产品分类维度的分为各自步骤去填入到excel中 1.#C024_01销售总收入SQL 为了便于查找每个SQL前面都注释着编号便于代码的复制和查找 SELECT '销售总收入' AS 销售总收

kettle 并行作业

热门专题