Kettle学习笔记(一)】的更多相关文章

目录 Kettle学习笔记(一)- 环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle中设置编码格式 如果处理的数据中有中文,需要对中文设置编码格式,一般是utf8格式,彻底的修改格式的方法就是,修改spoon.bat文件中增加如下信息:"-Dfile.encoding=UTF-8": Kettle中调整运行性能 修改参数 Kettle默认的性能适用于普通的一般硬件,如果自己的电脑硬…
目录 Kettle学习笔记(一)- 环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 打开Kettle 打开时间略长,请耐心等待. 常用的控件说明 这里先对控件做下简单说明,方便后面使用. 通用控件 通用--START:作业开始: 通用--作业:指定某个作业循环执行: 通用--转换:指定某个转换,加入到作业中来: 通用--设置变量:设置变量,为了转换或者作业中获取变量: 通用--成功:作业完成操作: 通用…
目录 Kettle学习笔记(一)-环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,s数据抽取高效稳定.Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提…
一直用SSIS做ETL,越来越感觉这玩意不是亲生的.因此萌生换ETL工具的想法,不过Kettle社区版没什么调度系统,貌似错误处理也不是很方便,且先了解吧. 本文简略的记录了整个软件的使用流程. 开始 Kettle 的几个子程序的功能和启动方式 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行. Encr.bat: 密码加…
转自萤火的萤 最近在用kettle迁移数据,从对kettle一点不会到比较熟悉,对于期间的一些问题和坑做了记录和总结,内容涵盖了使用的经验和技巧,踩到的坑.最佳实践和优化前后结果对比. 常用转换组件 计算形成新字段:只限算术运算,并且选择固定过滤记录:元表某字段按照某个条件分流,满足条件的到一个表,不满足的到另一个表,这两个目标表都必须有.Switch/Case:和过滤记录类似,可以多个条件判断,并且有默认转向条件,可以完美替换过滤记录组建记录分组:group by 组建未能正常按照预期理解运行…
一.子程序功能和启动方式介绍 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行. Encr.bat: 密码加密 转换和作业: Kettle 的 Spoon 设计器用来设计转换(Transformation)和 作业(Job). •转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step). •作业是比转换更高一级…
一.概述 数据剖析和数据检验: 用于数据的检查.清洗 . 统计步骤: 提供数据采样和统计的功能 分区: 根据数据里某个字段的值,拆分成多个数据块.输出到不同的库表和文件中. 脚本: Javascript 基础 二.数据剖析和数据检验 1.数据剖析 分析原始数据的数据类型.长度.值域等,属于ETL的第一步 kettle中使用DataCleaner进行数据剖析 首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.a…
一.概述 kettle中3个重要的步骤: 子转换/映射 在转换里调用一个子转换,便于封装和重用. 集群 集群模式 变量和参数 变量和参数的用法 二.子转换 1.定义子转换 主要由映射输入与映射输出定义: 这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例 保存这个转换(可以是文件,也可以在资源库),这就是子转换了! 2.调用子转换 子转换的配置: 整个调用的示例如下: // 详细,查看kettle示例 三.集群 Kettle 集群是一个分布式的运行环境,…
一.概述 查询步骤: 用来查询数据源里的数据并合并到主数据流中 . 连接步骤: 结果集通过关键字进行连接 .(与前面的UNION不同) 二.查询步骤 1.流查询 流查询示例:(注意上文中的流查询的限制) // 带有i的流向表示是信息流 2.数据库查询 数据库查询配置示例: 3.web查询 // 相关实例,也可以看kettle包中的examples web中前面应当有表输入,表中存储URL以及相关参数的字段 三.连接步骤 1.记录集连接 2.XML连接 暂不展开…
一.kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称. 1.ketle资源库元数据 • 资源库 资源库包括文件资源库.数据库资源库 Kettle 4.0 以后资源库类型可以插件扩展 • XML 文件 .ktr 转换文件的XML的根节点必须是 <transformation>. kjb 作业XML的根节点是<job> 2.kettl…