Kettle的改名由来】的更多相关文章

不多说,直接上干货! 当时啊,因为很多开源项目到最后都成了无人管的项目,为了避免这种情况的发生,要尽快为Kettle项目构建一个社区.这就意味着,在随后的几年可能需要回答上千封的电子邮件和论坛帖子.幸运的是,Kettle很快获得了开源商业智能公司Pentaho的帮助(www.pentabo.com),Pentaho获得了源代码的版权,Matt也成为了Pentaho的内部人员,带领kettle项目的开发,随后Kettle改名为Pentaho Data Integration.…
这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程.结果各种理由,一推再推.今天索性将这篇文档发布出来,分享给大家,例子等有空再补上.这是一篇基于kettle3.2基础上完成的kettle插件文档.然而现在最新版的kettle的界面已经完全变了样了,但是那些组件还是那么熟悉.对数据处理稍微熟悉点的应该对kettle都不陌生,kettle是一个快速格式化和数据抽取的工具.好吧,入正题: 如果你对kettle插件感兴趣可以到官网查看更多的资料:http://www.pent…
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 欢迎转载 最近把之前写的Hadoop MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作.于是选取了上手容易并对Hadoop支持的比较成熟的Pentaho Kettle来测试,把一些配置过程和遇到的坑记录下来. Kettle可以在官网下载到,但是官网会让你注册才能下载而…
ETL和Kettle简介     ETL即数据抽取(Extract).转换(Transform).装载(Load)的过程.它是构建数据仓库的重要环节.数据仓库是面向主题的.集成的.稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程.数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词.惯用语.数据输入错误.重复记录.丢失值.拼写变化等.即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(ga…
网上搜集了一些关于开源数据交换工具Kattle的文章,特收藏例如以下: 文章一:ETL和Kettle简单介绍 ETL即数据抽取(Extract).转换(Transform).装载(Load)的过程.它是构建数据仓库的重要环节.数据仓库是面向主题的.集成的.稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程.数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词.惯用语.数据输入错误.反复记录.丢失值.拼写变化等.即便是一个设计和规划良好的数据库系统,假设当中存在着…
Kettle实现数据库迁移 需求: 做数据仓库时,需要将业务系统CRM抽取到数据仓库的缓冲层,业务系统使用的是SqlServer数据库,数据仓库的缓冲层使用的是mysql数据库,为实现数据库的迁移,即将SqlServer数据库中的所有表与数据迁移到Mysql. 解决办法: kettle设计一整套流程实现,读取数据库中表->创建表->表数据抽取 实现过程: 整套流程分为:2个job,4个trans.使用到的Trans插件:表输入.字段选择.复制记录到结果.从结果获取记录.设置变量.java脚本.…
最近做的项目用到了ETL工具Kettle,这个工具相当好用,可以将各种类型数据作为数据流,经过处理后再生成各种类型的数据.正如其名“水壶”,将各个地方的水倒进水壶里,再用水壶倒入不同的容器.不过一来初学乍用,二来对此任务不是很感兴趣,研究的不是很深入,可能是以一种不科学的方法使用的,但观教程,常用的内容似乎也涉及到了,并且Y大说过,要善于总结,于是有了这篇,作为入门说明吧. 一.下载与安装 官网地址 大概700~800M,下载好解压缩即可.当然,要求JDK环境(似乎有自带) 二.任务(.kjb)…
由于开发新的系统,需要将之前一个老的C/S应用的数据按照新的数据设计导入到新库中.此过程可能涉及到表结构不一致.大数据量(千万级,甚至上亿)等情况,包括异构数据的抽取.清洗等等工作.部分复杂的工作需要我们的DBA写代码用程序在JDBC或者Delphi中解决,而大部分稍简单的数据的迁移需要一个强大的ETL工具来解决.某日,技术经理让我找一个满足我们项目数据迁移需求的稳定.高效ETL工具.google了几把,网上大致有下列几款软件资料较多:Oracle的OWB(Oracle Warehouse Bu…
由于开发新的系统,需要将之前一个老的C/S应用的数据按照新的数据设计导入到新库中.此过程可能涉及到表结构不一致.大数据量(千万级,甚至上亿)等情况,包括异构数据的抽取.清洗等等工作.部分复杂的工作需要我们的DBA写代码用程序在JDBC或者Delphi中解决,而大部分稍简单的数据的迁移需要一个强大的ETL工具来解决.某日,技术经理让我找一个满足我们项目数据迁移需求的稳定.高效ETL工具.google了几把,网上大致有下列几款软件资料较多:Oracle的OWB(Oracle Warehouse Bu…
在费用转换里面做了两个值映射.一个是编码.一个是名称.其中两个值映射设置不一样效果不一样. 第一个编码映射 目标字段名不为空,则表示会新增字段.其中复核源值条件的都会转换为目标值,不符合条件的会用[不匹配的默认值]的字符串覆盖.那有人可能会问,如果不匹配的时候可否继续用原来的字段值来用?可以,看第二个值映射. 第二个值映射,继续沿用了工资类型字段,匹配条件则改为目标值,不匹配则使用源值. 看最后的结果,其中[费用项目]字段是通过[工资类型]改名过去的.费用项目编码不匹配的都是固定的GZ,但是费用…