ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度!
kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例.
1.新建一个转换,
2.在工作中经常用到的是表输入和表输出(从一个数据库中提炼数据,插入到另外一个数据库中进行保存)
点击核心对象 --> 输入 --> 表输入
这个节点是用来从数据库中查询数据
点击“表输入”-->新建 首先创建一个数据库连接,要让kettle知道从哪里查询数据
kettle支持多种数据库连接,因为工作中用到的是mysql,所以其余的可以自行百度了解
因为在使用过程中,可能数据库编码方式不一致,所以需要制定编码,在创建数据连接的时候,点击高级选项卡,如图所示(set names utf8;)
在点击选项选项卡,如图所示:characterEncoding:utf8
创建完成后,点击保存,下面就是开始写sql,kettle支持sql中油自定义参数的形式,参数要使用${}来进行创建。注意一点,要勾选下面的,替换sql语句里的变量。
创建好后点击确定。
在创建一个节点,用来接收数据,点击输出中的表输出,创建数据库连接,和上面创建步骤一样
点击输入字段映射,可自动生成对应字段。
3.创建完成后,使用shift和鼠标左键将两个节点连接在一起
4.启动:
如果在查询时自定义了参数,那么在启动时需要个参数赋值:
5.还需注意一点,如果没有创建资源库,那么创建的转换/作业是要保存成脚本存放到本地,但是,如果已创建了资源库,那么脚本会错放到数据库中,不会生成文件!
6.资源库的创建
第一次需要新建资源库,如果已经创建,选择对应的资源库然后输入账号密码即可(账号密码默认admin)
在创建资源库时,点击+号,然后会出现图中的样式,我们选择第二个,会将数据生成到数据库中进行保存。
我们需要指定资源库存放的数据库连接是哪个,创建方式和上面我们创建节点的数据库连接一样,创建完后,选择数据库连接,名称和描述自己取名即可(尽量不要重复,与Java整合时需要这两个参数)
创建完成后,我们输入账号密码即可登录到资源库中。
ETL工具Kettle使用以及与Java整合实现数据清洗的更多相关文章
- 可用于Hadoop下的ETL工具——Kettle
看大家分享了好多hadoop相关的一些内容,我为大家介绍一款ETL工具——Kettle. Kettle是pentaho公司开源的一款ETL工具,跟hadoop一样,也是java实现,其目的就是做 ...
- 开源ETL工具kettle系列之常见问题
开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
- 大数据之ETL工具Kettle的--1功能介绍
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window.Linux.Unix上运行. 说白了就是,很有必要去理解一般ETL工具必备的特性和功能,这样才更好的掌握Kettle的使用. ...
- ETL工具--kettle篇(17.10.09更新)
ETL是EXTRACT(抽取).TRANSFORM(转换).LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环也是工作量较大的一块.当前知道的 ...
- ETL工具kettle基本使用
1.下载kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.z ...
- ETL工具-KETTLE教程专栏1----术语和定义
1-资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文 ...
- 八步学会数据迁移:ETL工具kettle使用方法
一.目的 将不同服务器上的表合并到另外一个服务器上.例如:将服务器1上的表A和服务器2上的表B,合并到服务器3上的表C 要求:表A需要被裁剪(去掉不必要的字段).表B需要增加一些字段 二.使用方法 ( ...
- etl学习系列1——etl工具安装
ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可 ...
- ETL利器Kettle
ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 本系列文章主要索引如下: 一.ETL利器Kettle实战应用解析系列一[Kettle使用介绍] 二.ETL利器Kettle实战应用解析 ...
随机推荐
- Devexpress MVC GridView / CardView (持续更新)
//获取gridview里面的combo box 显示的文本 //获取某个column在gridview的 index RightGridView.GetColumnByField("Fun ...
- 织梦DedeCms技术资料
Dedecms调用文章发布时间的方法 11-20 样式 ([field:pubdate function='strftime("%m-%d",@me)'/]) May 15, 20 ...
- (71)一篇文章带你熟悉HTTP协议
作者:涤生_Woo链接:http://www.jianshu.com/p/6e9e4156ece3來源:简书著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 本篇文章篇幅比较长,先 ...
- [CSP-S模拟测试]:异或(数学)
题目描述 给定$L,R$,我们希望你求出:$$\sum\limits_{i=L}^R\sum\limits_{j=L}^R(i\oplus j)$$其中这里的$\oplus$表示异或运算.答案对$10 ...
- 看完你也想编写自己的 react 插件
副标题----为什么我要写这个 react 插件 图片懒加载是项目中常用的功能,然而现有 react 懒加载组件库,用着都不是很爽了 ?.概括一下有如下几点: 没有只针对 image 懒加载组件.多数 ...
- libusb开发者指南
本文档描述libusb的API,以及如何开发USB应用.1 介绍 1.1 概览本文档描述libusb-0.1的API和USB相关内容.1.2 当前OS支持Linux 2.2或以上FreeBSD/N ...
- was安装相关步骤(Linux)
本次试验目的主要对websphere 二次内部解剖对中间件性能优化垫铺. 1.准备相关文件 其中 iso文件为WAS主要镜像文件(WAS文件所在地) Instalmgr为IBM安装引导程序instal ...
- 基于EasyHook实现监控explorer资源管理器文件复制、删除、剪切等操作
一.前言 最近自己在研究一个项目,需要实现对explorer资源管理器文件操作的监控功能,网上找到一些通过C++实现Hook explorer文件操作的方法,由于本人习惯用.NET开发程序,加之C/C ...
- Spring mvc注解说明
编号 注解 说明 位置 备注 1 @Controller 将类变成Spring Bean 类 现阶段 @Controller . @Service 以及 @Repository 和 @Componen ...
- 子系统kali安装桌面
理论上讲,所有Win10的Linux子系统都可以通过Windows10本机远程桌面和Xming的方法来安装使用图形化界面,笔者目前只接触了Debian系的Linux系统,故以Debian GNU/Li ...