kettle(一)概述 - 相关文章

【kettle(一)概述】的更多相关文章

kettle(一)概述

近期两个月一直和kettle打交道,从開始的没听说过,到如今能够熟练运用,不得不说项目驱动下,学习东西是最快的.好了,尽管使用kettle应付项目的任务绰绰有余.可是还是想系统的学习一下,总结一下.比如job用的比較少,kettle的集群模式没有涉及到等等. 说起kettle,还是先说说ETL(Extract-Transform-load,即抽取,转换.载入)数据仓库技术.是用来处理将数据从来源(比如:单位基础server)经过抽取.转换.载入到达至目的端(正在做的项目)的过程. 也就是新的项目…

2016/11/10 kettle概述

ETL(Extract-Transform-Load,即抽取,转换,加载),数据仓库技术,是用来处理将数据从来源(以前做的项目)经过抽取,转换,加载到达目的端(正在做的项目)的过程.也就是新的项目需要使用以前项目数据库中的数据,ETL就是解决这个问题的. ETL实现共同注意点:正确性,完整性,一致性,完备性,有效性,时效性,可获取性等,也就是说无论我们使用什么工具,来实现ETL技术时,达到这几个方面,才算是质量过关的. kettle则是其中的一种工具,其它还有:Informatica,Datas…

Kettle解决方案: 第二章 Kettle基本概念

2概述设计模块最主要的操作分为: 转换和作业选择转换和作业后就可以选择对应主对象树和核心对象主对象树大同小异核心对象是不同的比如转换需要用到的CSV表输入, 表输入等都在这里可以选择而作业的核心对象是: 2.1 转换转换是ETL解决方案中最主要的部分, 它处理抽取.转换.加载各阶段各中对数据行的操作.转换1/N个步骤. 如图, 下面是一个转换的过程图中每个框都是一个步骤(step),而连接框的线就是所谓的跳(hop). 跳定义了一个单向通道, 允许数据由一个通道向另一个通道移动.…

Storm Topology 提交总结---Kettle On Storm 实现

一,目的在学习的过程中,需要用到 PDI---一个开源的ETL软件.主要是用它来设计一些转换流程来处理数据.但是,在PDI中设计好的 transformation 是在本地的执行引擎中执行的,(参考源码中的 Trans.java ),现可以对DI加以改造:在DI中设计的转换,将之转换成Storm的Topology,然后再把该Topology提交到Storm集群中执行.这样,既可以利用DI强大的设计能力(因为在DI中可以设计各种各样的转换流程,这些用DI设计出来的 transformation流…

kettle学习笔记（十）——数据检验、统计、分区与JS脚本

一.概述数据剖析和数据检验: 用于数据的检查.清洗 . 统计步骤: 提供数据采样和统计的功能分区: 根据数据里某个字段的值,拆分成多个数据块.输出到不同的库表和文件中. 脚本: Javascript 基础二.数据剖析和数据检验 1.数据剖析分析原始数据的数据类型.长度.值域等,属于ETL的第一步 kettle中使用DataCleaner进行数据剖析首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.a…

kettle学习笔记（九）——子转换、集群与变量

一.概述 kettle中3个重要的步骤: 子转换/映射在转换里调用一个子转换,便于封装和重用. 集群集群模式变量和参数变量和参数的用法二.子转换 1.定义子转换主要由映射输入与映射输出定义: 这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例保存这个转换(可以是文件,也可以在资源库),这就是子转换了! 2.调用子转换子转换的配置: 整个调用的示例如下: // 详细,查看kettle示例三.集群 Kettle 集群是一个分布式的运行环境,…

kettle学习笔记（八）——kettle查询步骤与连接步骤

一.概述查询步骤: 用来查询数据源里的数据并合并到主数据流中 . 连接步骤: 结果集通过关键字进行连接 .(与前面的UNION不同) 二.查询步骤 1.流查询流查询示例:(注意上文中的流查询的限制) // 带有i的流向表示是信息流 2.数据库查询数据库查询配置示例: 3.web查询 // 相关实例,也可以看kettle包中的examples web中前面应当有表输入,表中存储URL以及相关参数的字段三.连接步骤 1.记录集连接 2.XML连接暂不展开…

kettle学习笔记（一）——入门与安装

一.概述 1.kettle是什么 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定.中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出. 更多介绍,参考kettle中文网:http://www.kettle.net.cn/ 2.kettle四大家族 Chef(中文:厨师).Kitchen(中文:厨房).Spoon(中文:勺子).Pan(中文:平底锅)---注意英文发…

大数据入门第五天——离线计算之hadoop（上）概述与集群安装

一.概述根据之前的凡技术必登其官网的原则,我们当然先得找到它的官网:http://hadoop.apache.org/ 1.什么是hadoop 先看官网介绍: The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing. The Apache Hadoop software library is a framework that allows fo…

Hive2.2.1概述（待重写）

概述 hive 是一个包裹着 hdfs 的壳子,hive 通过 hql,将 sql 翻译成 MR ,进行数据查询. Hive是⼀个构建在Hadoop之上的数据仓库 hive的数据存在hdfs上,元信息放在metastore中,metastore也放在hdfs上和传统的数据仓库⼀样,主要⽤来访问和管理数据,同样提供了类SQL查询语⾔和传统数据仓库不⼀样,可以处理超⼤规模的数据,可扩展性和容错性⾮常强举个直观一点的例子,一个MapReduce程序,需要写很多代码,但是我们可以在hive上使用一…