0x01 Kettle软件概览

  • Spoon:集成开发环境

  • Kitchen:作业的命令行运行程序,可以通过Schell脚本来调用

  • Pan:转换的命令行程序

  • Carte:轻量级的HTTP服务,后台运行,监听HTTP请求来运行一个作业

1.1 Spoon

主要用于ETL设计阶段。

1.2 命令行启动:Kitchen和Pan

作业和转换可以在图形界面里执行,但这只是在开发、测试和调试阶段。在开发完成后需要部署到实际运行环境中,在部署阶段Spoon就很少用到了。

在部署阶段,一般需要通过命令行执行,需要把命令行放入到Shell脚本中,并定时调度这个脚本。Kitchen和Pan命令行工具主要就用于这个阶段,用于实际的生产环境中。

1.3 作业服务器:Carte

Carte服务用于执行一个作业,就像Kitchen一样。但和Kitchen不同的是,Carte是一个服务,一直在后台运行,而Kitchen只是运行一个作业就退出。

Carte是Kettle集群中的一个重要构件块。集群可以将单个工作或转换分成几个部分,在Carte服务器的多个计算机上并行执行,因此可以分散工作负载。

0x02 下载安装

2.1 环境说明

特别注意:不同版本的kettlehadoop存在兼容性问题。所以一定要注意版本之间的兼容性,下文会介绍具体的查询方法。

2.1.1 windows环境

OS: Windows 10

jdk: jdk-1.8.0_121

kettle: pdi-ce-6.1.0.1-196

2.1.2 linux环境

OS: CentOS_6.5_x64

jdk: jdk1.8.111

hadoop: hadoop-2.6.5

2.2 下载安装

2.1 下载地址:

社区版:http://community.pentaho.com/

收费版:http://www.pentaho.com/product/data-integration

本教程使用的为社区版

2.2 安装

将下载的文件pdi-ce-6.1.0.1-196.zip解压(因为kettle是免安装的所以至此安装就完成了:))

0x03 配置

3.1 服务器端配置

3.1.1 编辑mapred-site.xml

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

3.2 客户端配置

3.2.1 编辑文件plugin.properties

进入目录\plugins\pentaho-big-data-plugin编辑文件plugin.properties

active.hadoop.configuration=cdh55

根据具体情况设定。

3.2.2 复制相关文件

进入目录plugins\pentaho-big-data-plugin\hadoop-configurations\cdh55

将服务器上hadoop/etc/hadoop/下的core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml复制到该目录下。

0x04 测试

4.1 双击Spoon.bat运行软件

4.2 文件 -> 新建 -> 作业

4.3 新建Hadoop Copy File作业

4.4 右键Hadoop clusters选择New cluster

4.5 填写Cluser Name, Hostname, Port

填写完成后如下图

注意:我之所填写master是因为我已经在主机的hosts文件里添加了映射。具体操作为编辑hosts,在最后一行追加(具体内容按照自己的实际情况修改)

192.168.32.100    master
192.168.32.101 slave1
192.168.32.102 slave2

如果不配置hosts可以直接写NameNode的IP地址,但是对应的配置文件也需要修改。

4.6 点击测试后结果如下

从图中可以看出User Home Directory Access是没有通过测试的,但是在实际使用中并不影响。

解决办法:通过查看日志发现,这里所说的User Home Directory是指windows用户的用户名,因为我没有在hdfs上创建windows用户admin的文件夹,所以会测试无法通过。只需要在hdfs上创建/user/admin目录即可解决这个问题。

4.7 配置输入文件和hdfs上的写入路径

4.8 执行结果

4.9 在服务器端查看

2017-08-17 22:05:20 星期四

Kettle安装和配置的更多相关文章

  1. Kettle安装与配置

    设置好了之后可以测试下 后来百度发现是缺少mysql的JDBC连接驱动 kettle在初次配置的时候容易出这个问题,这个是由于java程序在连接mysql数据库的时候缺少驱动 我的kettle版本是4 ...

  2. kettle安装部署及远程执行

    一.windows环境 1.安装jdk 随意选择目录 只需把默认安装目录 \java 之前的目录修改即可 2.安装jre→更改→ \java 之前目录和安装 jdk 目录相同即可 注:若无安装目录要求 ...

  3. Kettle安装和简单使用

    Kettle安装和使用 安装 安装之前需要准备的环境为Java环境,需要提前配置好jdk 下载之后,解压即可使用. 使用 1.因为该工具主要是对数据库进行操作,所以需要提前将mysql的jar包放到l ...

  4. JDK安装与配置

    JDK安装与配置 一.下载 JDK是ORACLE提供免费下载使用的,官网地址:https://www.oracle.com/index.html 一般选择Java SE版本即可,企业版的选择Java ...

  5. Node.js 教程 01 - 简介、安装及配置

    系列目录: Node.js 教程 01 - 简介.安装及配置 Node.js 教程 02 - 经典的Hello World Node.js 教程 03 - 创建HTTP服务器 Node.js 教程 0 ...

  6. 烂泥:redis3.2.3安装与配置

    本文由ilanniweb提供友情赞助,首发于烂泥行天下 想要获得更多的文章,可以关注我的微信ilanniweb 前一段时间写过一篇codis集群的文章,写那篇文章主要是因为当时的项目不支持redis自 ...

  7. mysql源码包手动安装、配置以及测试(亲测可行)

    笔记编者:小波/qq463431476博客首页:http://www.cnblogs.com/xiaobo-Linux/ 记下这篇mysql笔记,望日后有用! redhat6采用centos yum源 ...

  8. 环境搭建系列-系统安装之centos 6.5安装与配置

    按照国际惯例,系列目录先奉上: 系列一:系统安装之centos 6.5安装与配置 系列二:准备工作之Java环境安装 系列三:数据为先之MySQL读写集群搭建 系列四:谈分布式之RabbitMQ集群搭 ...

  9. ZooKeeper安装与配置

    一. 单机安装.配置: 1. 下载zookeeper二进制安装包下载地址:http://apache.dataguru.cn/zookeeper/zookeeper-3.4.3/zookeeper-3 ...

随机推荐

  1. CentOS 下搭建FTP服务器

    vsftpd是Linux下比较著名的FTP服务器,搭建FTP服务器当然首选这个.本文介绍了在CentOS 6 4下安装vsftpd.配置虚拟用户登录FTP的过程.正 vsftpd是Linux下比较著名 ...

  2. TCP长连接与短连接的原理及区别

    一.当网络通信时采用TCP协议时:  1.过程: 第一步:(在真正的读写操作之前)Server 和Client 之间必须建立一个连接,连接的建立需要三次握手 经典的三次握手示意图: 第二步:进行读写操 ...

  3. Java 数据库编程 ResultSet 的 使用方法

    结果集(ResultSet)是数据中查询结果返回的一种对象,可以说结果集是一个存储查询结果的对象,但是结果集并不仅仅具有存储的功能,他同时还具有操纵数据的功能,可能完成对数据的更新等. 结果集读取数据 ...

  4. CISCO2960配置vlan

    一.VTP配置 1.VLAN database 2.(VLAN)#vtp domain wx 3.(VLAN)#vtp server 二.VLAN配置 1.VLAN database 2.(VLAN) ...

  5. getResources提取资源文件

    String pxsize = context.getResources().getString(R.string.hello); 资源文件格式: <?xml version="1.0 ...

  6. Luogu 3390 【模板】矩阵快速幂 (矩阵乘法,快速幂)

    Luogu 3390 [模板]矩阵快速幂 (矩阵乘法,快速幂) Description 给定n*n的矩阵A,求A^k Input 第一行,n,k 第2至n+1行,每行n个数,第i+1行第j个数表示矩阵 ...

  7. multipath多路径实验02-配置多路径软件

    multipath多路径实验02-配置多路径软件 在上一篇文章<multipath多路径实验01-构建iSCSI模拟环境>,我构建了iSCSI的模拟环境,在文章最后,已经成功配置并在主机上 ...

  8. 工程经验总结之吹水"管理大境界"

    1.个人认为项目管理最核心的能力是预见风险和快速解决风险的能力. 从实践来看,没有百分百的完美计划,任何计划都有出现偏差的可能,或者说计划总是不会按照最初的设定去完美执行的. 项目经理存在的主要价值就 ...

  9. 服务器Hadoop+Hive搭建

    出于安全稳定考虑很多业务都需要服务器服务器Hadoop+Hive搭建,但经常有人问我,怎么去选择自己的配置最好,今天天气不错,我们一起来聊一下这个话题. Hadoop+Hive环境搭建 1虚拟机和系统 ...

  10. php的laravel框架使用心得

    最近在做一项目,是基于laravel的后台api,用于与手机交互的,数据采用json格式.下面说下怎样在两周内把一个新框架或者语言用的得心应手. 项目采用laravel5.4+dingoapi+jwt ...