ETL开源工具kettle学习笔记】的更多相关文章

一 Kettle配置与部署 参考1:http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply1.html 1.下载kettle安装包 Kettle可以在http://kettle.pentaho.org/网站下载. 下载kettle压缩包,解压缩到任意本地路径. 2.安装和配置jdk 3.运行kettle 在windows中执行spoon.bat,在类unix系统中执行spoon.sh. 二 kettle文档教程 官方教程…
目录 Kettle学习笔记(一)-环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,s数据抽取高效稳定.Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提…
目录 Kettle学习笔记(一)- 环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 打开Kettle 打开时间略长,请耐心等待. 常用的控件说明 这里先对控件做下简单说明,方便后面使用. 通用控件 通用--START:作业开始: 通用--作业:指定某个作业循环执行: 通用--转换:指定某个转换,加入到作业中来: 通用--设置变量:设置变量,为了转换或者作业中获取变量: 通用--成功:作业完成操作: 通用…
GNU工具链学习笔记 1..so为动态链接库,.a为静态连接库.他们在Linux下按照ELF格式存储.ELF有四种文件类型.可重定位文件(Relocatable file,*.o,*.a),包含代码和数据,可用来连接成可执行文件或共享目标文件;可执行文件(Executable File),ELF可执行文件:共享目标文件(Shared Object File,*.so),包含代码和数据:核心转储文件(Core Dump File),进程意外终止时,系统将该进程的地址空间内容和其他信息保存到该文件中…
目录 Kettle学习笔记(一)- 环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle中设置编码格式 如果处理的数据中有中文,需要对中文设置编码格式,一般是utf8格式,彻底的修改格式的方法就是,修改spoon.bat文件中增加如下信息:"-Dfile.encoding=UTF-8": Kettle中调整运行性能 修改参数 Kettle默认的性能适用于普通的一般硬件,如果自己的电脑硬…
一.概述 1.kettle是什么 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定.中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. 更多介绍,参考kettle中文网:http://www.kettle.net.cn/ 2.kettle四大家族 Chef(中文:厨师).Kitchen(中文:厨房).Spoon(中文:勺子).Pan(中文:平底锅)---注意英文发…
目标:能够把电脑当作一个集成有高性能处理器的开发板用起来,当然,还自带了一个高级的操作系统Windows(必须的).总之,就是在一个带了操作系统的高性能开发板上的驱动程序开发. 性质:纯属业余爱好 1.昨天下载了WDK 7.1.0 Free版(From MS的正版,需要注册一个Windows Live ID,下载链接http://www.microsoft.com/downloads/en/confirmation.aspx?familyId=36a2630f-5d56-43b5-b996-76…
一.我对gulp的初期理解 是一种前端辅助开发工具 可以帮你把js,css,img等文件 合并.压缩,图片好像是合并为精灵图,合并为精灵图之后,还会生成一个css样式表. 官方解说是:基于流的自动化构建工具. 基于流:应该就是他的语法方式有点像jquery 那样 如: $(".active").css("background":"red").addClass("default");像这样一直点点下去.前一个表达式的输出作为后一…
Kettle简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,s数据抽取高效稳定.Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做.Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换…
一直用SSIS做ETL,越来越感觉这玩意不是亲生的.因此萌生换ETL工具的想法,不过Kettle社区版没什么调度系统,貌似错误处理也不是很方便,且先了解吧. 本文简略的记录了整个软件的使用流程. 开始 Kettle 的几个子程序的功能和启动方式 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行. Encr.bat: 密码加…
一.概述 数据剖析和数据检验: 用于数据的检查.清洗 . 统计步骤: 提供数据采样和统计的功能 分区: 根据数据里某个字段的值,拆分成多个数据块.输出到不同的库表和文件中. 脚本: Javascript 基础 二.数据剖析和数据检验 1.数据剖析 分析原始数据的数据类型.长度.值域等,属于ETL的第一步 kettle中使用DataCleaner进行数据剖析 首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.a…
BT51.信息收集2.扫描工具3.漏洞发现4.社会工程学工具5.运用层攻击MSF6.局域网攻击7.密码破解8.维持访问一.DNS信息收集1.Dnsenum/pentest/enumeration/dns/dnsenum#./dnsenum.pl -f dns.txt -dnsserver 8.8.8.8 cisco.com -o cisco.txt-f 指定暴力破解文件-dnsserver 指定dns服务器cisco.com 指定目标域-o cisco.txt 输出到文件 cisco.txt2.…
看过乙醇分享的接口测试,自己练习了moco,这里呢,吧一些练习的笔记坐下记录,方便自己查阅. 开源地址https://github.com/dreamhead/moco  ,  到QuickStart 进行下载. 下载就是一个jar包, 新建文件夹,然后看着官网的例子来做第一个接口 创建config.json, [ { "request": { "method":"get", "uri":"/" }, &q…
转自萤火的萤 最近在用kettle迁移数据,从对kettle一点不会到比较熟悉,对于期间的一些问题和坑做了记录和总结,内容涵盖了使用的经验和技巧,踩到的坑.最佳实践和优化前后结果对比. 常用转换组件 计算形成新字段:只限算术运算,并且选择固定过滤记录:元表某字段按照某个条件分流,满足条件的到一个表,不满足的到另一个表,这两个目标表都必须有.Switch/Case:和过滤记录类似,可以多个条件判断,并且有默认转向条件,可以完美替换过滤记录组建记录分组:group by 组建未能正常按照预期理解运行…
一.概述 流程主要用来控制数据流程与数据流向 应用则是提供一些工具类 二.流程步骤 1.ETL元数据注入 类似Java中的反射,在设计时不知道文件名.文件位置等,在真正执行时才知道具体的一些配置等信息 具体介绍后续补充,官方Wikia:https://wiki.pentaho.com/display/EAI/ETL+Metadata+Injection 2.数据过滤 这里说一下Java代码过滤,主要是Java的一些方法,例如indexOf(),matchs()等: 3.处理不确定的数据行数 检测…
一.kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称. 1.ketle资源库元数据 • 资源库 资源库包括文件资源库.数据库资源库 Kettle 4.0 以后资源库类型可以插件扩展 • XML 文件 .ktr 转换文件的XML的根节点必须是 <transformation>. kjb 作业XML的根节点是<job> 2.kettl…
Metasploit是个好东西 主要参考了<Metasploit渗透测试魔鬼训练营>这本书. 一.先用自己的靶机感受一下该工具的强大 linux靶机的ip如图 按照书上写的配置,如图 然后就获得了靶机的root权限,如图是我的实验结果 有关Python 目前在sectools上排名23的是Perl/Python/Ruby,这几种脚本语言,因为我只会python,所以只介绍它.在你翔之星一些简单的功能又找不到合适的工具的时候,自己写是最快最方便的,python无疑是一利器.关于其教程,我在这里贴…
近期,因为工作需要,学习了一个报表工具Smartbi,这是国产BI软件,其功能还是挺强大的,并且学习成本很低,容易上手. 其实在学习Smartbi之前,我还学习了一段时间的微软BI工具sqlserver report service(简称SSRS),怎么说呢,这个工具界面不好看,另外感觉功能不全. 当我接触smartbi后,感觉豁然开朗,整个人都为之振奋,因为可以实现我想要的各种需求了. Smartbi里面后有很多种分析,如组合分析.透视分析.多维分析等等,我感觉这些分析可以不用学,直接学习其中…
一.为什么学习Shell脚本语言 1.Shell脚本语言是实现Linux/UNIX系统管理及自动化运维必备的重要工具,Linux/UNIX系统底层及 基础应用软件的核心大都涉及Shell脚本的内容. 2.每一个合格的运维工程师都需要熟练编写Shell脚本语言,并能够阅读系统及各类软件附带的Shell 脚本内容.只有这样才能提升运维人员的工作效率,适应日益复杂的工作环境,减少不必要的重复工作 ,从而为个人的职场发展奠定较好的基础. 二.流程控制 过程式编程语言: 顺序执行 选择执行 循环执行 三.…
转:http://blog.csdn.net/zssureqh/article/details/8846337 背景介绍: 医学影像PACS工作站的服务端需要对大量的dcm文件进行归档,写入数据库处理.由于医学图像的特殊性,每一个患者(即所谓的Patient)每做一次检查(即Study)都至少会产生一组图像序列(即Series),而每一组图像序列下会包含大量的dcm文件(例如做一次心脏CTA的诊断,完整的一个心脏断层扫描序列大约有200幅图像).DICOM3.0协议中对每一幅影像是按照特定的三个…
一.子程序功能和启动方式介绍 Spoon.bat: 图形界面方式启动作业和转换设计器. Pan.bat: 命令行方式执行转换. Kitchen.bat: 命令行方式执行作业. Carte.bat: 启动web服务,用于 Kettle 的远程运行或集群运行. Encr.bat: 密码加密 转换和作业: Kettle 的 Spoon 设计器用来设计转换(Transformation)和 作业(Job). •转换主要是针对数据的各种处理,一个转换里可以包含多个步骤(Step). •作业是比转换更高一级…
1. 由于Android源码过于庞大,SourceInsight会经常卡死,不适合了.适合的是Android Studio, 非常好用.使用手册上有介绍如何安装. 编译安卓的过程说明手册中也有. 3.Android的源码非常庞大,而且C++的类的继承关系非常的深,如果能快速知道这些类的继承关系,对阅读代码会有非常大的帮助.可以使用UML工具来自动生成这些类的继承关系.大部分UML工具都是收费了,bouml是一款比较好用的免费的版本,但是最新版本的bouml也开始收费了,可以找一个比较老的版本,如…
一.概述 kettle中3个重要的步骤: 子转换/映射 在转换里调用一个子转换,便于封装和重用. 集群 集群模式 变量和参数 变量和参数的用法 二.子转换 1.定义子转换 主要由映射输入与映射输出定义: 这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例 保存这个转换(可以是文件,也可以在资源库),这就是子转换了! 2.调用子转换 子转换的配置: 整个调用的示例如下: // 详细,查看kettle示例 三.集群 Kettle 集群是一个分布式的运行环境,…
一.概述 查询步骤: 用来查询数据源里的数据并合并到主数据流中 . 连接步骤: 结果集通过关键字进行连接 .(与前面的UNION不同) 二.查询步骤 1.流查询 流查询示例:(注意上文中的流查询的限制) // 带有i的流向表示是信息流 2.数据库查询 数据库查询配置示例: 3.web查询 // 相关实例,也可以看kettle包中的examples web中前面应当有表输入,表中存储URL以及相关参数的字段 三.连接步骤 1.记录集连接 2.XML连接 暂不展开…
学习网址 http://wiki.pentaho.com/display/BAD/Transforming+Data+within+Hive…
cefsharp(webkit内核)浏览器替代webbrowser用来采集页面数据. 需要在页面form加载完毕,用异步方式自动获取sourcecode. 由于国内cefsharp的资料相对比较少,在google英文资料后得到方法,这里做个笔记备忘: IWebBrowser.cs 这个接口文件里面 36行: event EventHandler<FrameLoadEndEventArgs> FrameLoadEnd; 页面加载完的"事件". 262行:GetSourceAs…
kettle-定时任务 Kettle 的定时任务可以用kettle中的job工作来定时转换(缺点窗口不可关闭),同时也可以使用bat脚本来启动kettle的 '.ktr'转换. 注:这里对定时任务的时间间隔做一个解释,job定时任务选择时间间隔,是你的job执行结束后,然后在等待你设置的时间以后才会执行下一个job(因为数据量大时一个job可能执行很长时间). 这里对Bat脚本执行做重点介绍 Bat脚本可在 Windows上直接双击运行;也可以在'计算机管理-->任务计划程序中添加,并定时启动;…
keepalived完全遵守VRRP协议包括竞选机制,至于VRRP是什么这里不说了参考http://wenku.baidu.com/link? url=1UbkmHuQlGECgC90P7zF6u2xYyifLK0F-G_7pehNVUitZZExISjZ- B22TJKKGyYIZXh9X7uULA8lA1nKw0NsyNGelrt_yQ317knkVyjwCqW,不同的是VRRP里的路由器在keepalive中变成服务器 vrrp的术语:虚拟路由器.VRID.Master.Backup.VI…
一.概述 暂略 二.ODPS插件 https://yq.aliyun.com/articles/68911…
一.概述 转换步骤分类: 1. 增加新的列 2. 字符串处理 3. 行列变换 4. 排序/排重/字段选择 5. 其他转换步骤 二.增加新的列 1.增加常量列 增加一列常量的列 其它增加列的操作大同小异,不一一赘述,只介绍计算器 1. 增加常量列 2. 增加序列列 3. 增加分组序列列 4. 增加校验列 5. 增加XML 列 6. 计算器 2.计算器 可以进行数值运算.日期运算等... 更多计算类型的介绍,参见wiki 三.字符串处理 1.字符串拆分 1.同Java的indexOf,左闭右开的形式…