1.转换的并行 转换的并行是改变复制的数量 上面的转换相当于下面的: 实际是把一个任务拆成三部分执行,相当于在一个数据库连接中做了三次查询,数据库连接的开销没有增加,但是有三个进程一起执行. 2.job的并行执行 只需要在"START"设置即可. 建议:将job的条目都做成子job.(To do this, we suggest you wrap up the parallel work in a separate Job.) 注意,并行执行时,job条目不会按顺序执行,所以有依赖性的
最近开始折腾数据,起源是多业务数据源需要转换到数据分析平台.这个过程需要跨机器,跨库.同时还需要将业务数据表的内容进行转换,合并,清洗等等操作. 经过多方选型,最终决定使用kettle来作为数据抽取处理的工具. 但是,在这里,是想吐槽下kettle这东西的问题. 1.kettle的版本使用的是5.1,搭建了一个kettle的集群之后,经常遇到的问题就是虚拟文件系统异常,作业,或者转换 "is a not a file.".网上找到的解决办法是远程上传的作业是xml,但是缺乏XML头,因
十一假期 参加婚礼 稍晚点发博 整体流程步骤是: 写SQL-导出到excel设定excel模板调整格式-设置kettle转换--设置kettle邮件作业--完成 第一.写SQL 保持最近12个周的数据 SELECT city AS 城市,DATE_FORMAT(order_date,"%x%v") AS 年周, CASE ),INTERVAL WEEK) ),INTERVAL WEEK) ),INTERVAL WEEK)),"周"),CONCAT(DATE_FORM
转自http://biancheng.dnbcw.info/linux/417992.html 命令: qsub - submit a batch job to Grid Engine. qsh - submit an interactive X-windows session to Grid Engine. qlogin - submit an interactive login session to Grid Engine. qrsh - submit an inter