kettle(一)概述】的更多相关文章

近期两个月一直和kettle打交道,从開始的没听说过,到如今能够熟练运用,不得不说项目驱动下,学习东西是最快的.好了,尽管使用kettle应付项目的任务绰绰有余.可是还是想系统的学习一下,总结一下.比如job用的比較少,kettle的集群模式没有涉及到等等. 说起kettle,还是先说说ETL(Extract-Transform-load,即抽取,转换.载入)数据仓库技术.是用来处理将数据从来源(比如:单位基础server)经过抽取.转换.载入到达至目的端(正在做的项目)的过程. 也就是新的项目…
ETL(Extract-Transform-Load,即抽取,转换,加载),数据仓库技术,是用来处理将数据从来源(以前做的项目)经过抽取,转换,加载到达目的端(正在做的项目)的过程.也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的. ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的. kettle则是其中的一种工具,其它还有:Informatica,Datas…
2概述 设计模块最主要的操作分为: 转换和作业 选择转换和作业后就可以选择对应主对象树和核心对象 主对象树大同小异 核心对象是不同的 比如转换需要用到的CSV表输入, 表输入等都在这里可以选择 而作业的核心对象是: 2.1 转换 转换是ETL解决方案中最主要的部分, 它处理抽取.转换.加载各阶段各中对数据行的操作.转换1/N个步骤. 如图, 下面是一个转换的过程 图中每个框都是一个步骤(step),而连接框的线就是所谓的跳(hop). 跳定义了一个单向通道, 允许数据由一个通道向另一个通道移动.…
一,目的 在学习的过程中,需要用到 PDI---一个开源的ETL软件.主要是用它来设计一些转换流程来处理数据.但是,在PDI中设计好的 transformation 是在本地的执行引擎中执行的,(参考源码中的 Trans.java ),现可以对DI加以改造:在DI中设计的转换,将之转换成Storm的Topology,然后再把该Topology提交到Storm集群中执行.这样,既可以利用DI强大的设计能力(因为在DI中可以设计各种各样的转换流程,这些用DI设计出来的 transformation流…
一.概述 数据剖析和数据检验: 用于数据的检查.清洗 . 统计步骤: 提供数据采样和统计的功能 分区: 根据数据里某个字段的值,拆分成多个数据块.输出到不同的库表和文件中. 脚本: Javascript 基础 二.数据剖析和数据检验 1.数据剖析 分析原始数据的数据类型.长度.值域等,属于ETL的第一步 kettle中使用DataCleaner进行数据剖析 首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.a…
一.概述 kettle中3个重要的步骤: 子转换/映射 在转换里调用一个子转换,便于封装和重用. 集群 集群模式 变量和参数 变量和参数的用法 二.子转换 1.定义子转换 主要由映射输入与映射输出定义: 这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例 保存这个转换(可以是文件,也可以在资源库),这就是子转换了! 2.调用子转换 子转换的配置: 整个调用的示例如下: // 详细,查看kettle示例 三.集群 Kettle 集群是一个分布式的运行环境,…
一.概述 查询步骤: 用来查询数据源里的数据并合并到主数据流中 . 连接步骤: 结果集通过关键字进行连接 .(与前面的UNION不同) 二.查询步骤 1.流查询 流查询示例:(注意上文中的流查询的限制) // 带有i的流向表示是信息流 2.数据库查询 数据库查询配置示例: 3.web查询 // 相关实例,也可以看kettle包中的examples web中前面应当有表输入,表中存储URL以及相关参数的字段 三.连接步骤 1.记录集连接 2.XML连接 暂不展开…
一.概述 1.kettle是什么 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定.中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. 更多介绍,参考kettle中文网:http://www.kettle.net.cn/ 2.kettle四大家族 Chef(中文:厨师).Kitchen(中文:厨房).Spoon(中文:勺子).Pan(中文:平底锅)---注意英文发…
一.概述 根据之前的凡技术必登其官网的原则,我们当然先得找到它的官网:http://hadoop.apache.org/ 1.什么是hadoop 先看官网介绍: The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows fo…
概述 hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询. Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上 和传统的数据仓库⼀样,主要⽤来访问和管理数据,同样提供了类SQL查询语⾔ 和传统数据仓库不⼀样,可以处理超⼤规模的数据,可扩展性和容错性⾮常强 举个直观一点的例子,一个MapReduce程序,需要写很多代码,但是我们可以在hive上使用一…