5.使用kettle集群模式对相关的数据进行排序

既然,基于Carte服务程序所搭建的集群已经在Spoon中设定好了,

可以首先,先来启动四个节点:

"以管理员身份运行"打开 四个 cmd窗口,(路径要根据个人主机设置进行变更)

分别输入:

分别开启集群的各个节点。

接下来要做的就是导入数据到数据库中作为实验数据。

首先下载数据源,然后将其加载到数据库中,

下面的这个链接是可以直接下载到mysql的一个经典的数据集的,

LZ的很多实验都是使用这个数据集的。

http://www.mysqltutorial.org/download/2

使用命令:(具体路径与个人主机解压路径不同而不同,要注意修改的)

mysql>source    F:\ETL_notes\7_14\mysqlsampledatabase1\mysqlsampledatabase.sql

将数据集导入到mysql数据库中。

如下截图为mysqlsampledatabase.sql文件所创建的数据库classicmodels中的各个数据表:

这样就表示了数据集已经正确的导入到数据库中去了。

创建相关的数据库连接,主对象树->DB连接,对弹出对话框中参数设定如下:

使用Step 表输入 来将数据库中的表数据导入。

点击编辑选中刚刚创建好的数据库连接,然后点击“获取SQL查询语句”,

在弹出对话框中选中对应数据库中想要导入的表名称并且双击。

接下来点击 预览 按钮就会看到,表输入step已经成功的将数据库中的customers表中数据读入了。

然后,使用 排序记录Step 来对从数据库表中的数据进行排序处理,

首先,双击 排序记录

然后,点击获取记录,

这样的话就会把导入的数据库表中的对应字段显示到对话框中去了。

排序SQL语句中的某些设定是很像的,都是要实现设定关键字,通常设定两个(这个不是绝对的,根据具体情况而定)

接下来选取不需要作为关键字排序的字段,使用delete键进行删除。

最后确定。

如果要实现的是集群并发的方式来对数据进行排序的,只需要右键单击 排序记录

后选择"集群"。

    

然后选取事先我们设定好的 Cluster1这个集群:具体使用Carte搭建集群请参见:

在选择集群之后呢,

因为我们所设定的集群是一主三从,

主负责 分发  回收任务,

三从负责并发跑任务。

所以会看到排序记录的右上角显示有: C*3的字样。

对于输出的话,为了可以清晰、方便的查看结果,使用 文本输出 是很好的方式。

不过要对文件的路径进行指定选取,以便于到相应的文件夹的下面可以找到输出该文件。

不过这个运行的结果真的是很有意思的,

首先我们来看一下,carte的相关四个cmd窗口:

接下来我们再来看一下,工作区中的一个transformation变成了8个,(有点多,就不截图了)

分别对应的master/slave1/slave2/slave3并且显示了对应执行的不同的操作。

正如实现所想象的:master负责与 表输入  相交互 将排序的数据抽取出来并分发给 其余的三个slave结点。

以及收取三个slave进行排序的相应数据,并把数据输出到文本文件中去;

这也是为什么后三个显示的cmd命令窗口中的相关输入输出为0呢,因为输入输出都是master的工作的。

三个slave只是负责将分到到自己的数据进行排序,然后将排序结果提交到master就可以了。

这也解释了为什么,集群并发的方式十分适用于处理I/O频繁或是cpu频繁的任务。

因为并发的运行可以大大的提高相关任务的运行效率,最大限度的使用cpu资源。

接下来我们来看一下文本文件吧,这个可是我们此次实验的运行结果呢。

大概就是这个样子了呢,根据customerNumber(primary key)进行排序的。

开头是字段名称,接下来是已经排好序了的数据表中的数据。

因为选取的第一个 排序关键字 是本表的 主键 。

所以,根本没有重复的时候。所以第二个选取的concatFirstName也就没有选取的必要了呢。

个人感觉,此文篇幅过长所以第六块的内容就写到下一篇文章中吧~

6.有关于集群调用子服务器的java源代码实现

Kettle的集群排序 2——(基于Windows)的更多相关文章

  1. 在使用Kettle的集群排序中 Carte的设定——(基于Windows)

    本片文章主要是关于使用Kettle的UI界面: Spoon来实现基于集群的对数据库中的数据表数据进行排序的试验. 以及在实验过程中所要开启的Carte服务的一些配置文件的设置, 还有基于Windows ...

  2. hadoop集群配置和在windows系统上运用java操作hdfs

    安装 配置 概念 hadoop常用shell命令 使用java操作hadoop 本文介绍hadoop集群配置和在windows系统上运用java操作hdfs 安装 http://mirror.bit. ...

  3. 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    这个很简单,在集群机器里,选择就是了,本来自带就有Impala的. 扩展博客 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

  4. 给Ambari集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解)

    不多说,直接上干货! Impala和Hive的关系(详解) 扩展博客 给Clouderamanager集群里安装基于Hive的大数据实时分析查询引擎工具Impala步骤(图文详解) 参考 horton ...

  5. 搭建基于docker 的redis分布式集群在docker for windows

    https://blog.csdn.net/xielinrui123/article/details/85104446 首先在docker中下载使用 docker pull redis:3.0.7do ...

  6. 转】Nginx+tomcat集群环境搭建(Windows下)

    原博文出自于:    http://blog.csdn.net/clj198606061111/article/details/22621003       感谢! 实验环境 windows xp s ...

  7. 160512、nginx+多个tomcat集群+session共享(windows版)

    第一步:下载nginx的windows版本,解压即可使用,点击nginx.exe启动nginx 或cmd命令 1.启动: D:\nginx+tomcat\nginx-1.9.3>start ng ...

  8. Nginx+tomcat集群环境搭建(Windows下)

    实验环境 windows xp sp3 Nginx版本:1.5.12: 下载地址:http://nginx.org/en/download.html Tomcat版本:6.0.39 下载地址:http ...

  9. Nacos集群配置实例(windows下测试)

    1.首先 fork 一份 nacos 的代码到自己的 github 库,然后把代码 clone 到本地. git地址:https://github.com/alibaba/nacos.git 2.然后 ...

随机推荐

  1. [转载]# Ajax异步请求阻塞情况的解决办法

    最近使用ExtJs4的mvc模式在开发了在线漫画的后台,因为异步请求比较多,有的回应时间长,有点短.我发现在多次并发的情况下,会造成阻塞的情况.也就是说如果回应时间长的请求还在进行中,短的请求却被挂起 ...

  2. Oracle 直接路径读

    在11g中,全表扫描可能使用direct path read方式,绕过buffer cache,这样的全表扫描就是物理读了. 在10g中,都是通过gc buffer来读的,所以不存在direct pa ...

  3. Bluetooth LE(低功耗蓝牙) - 第六部分(完)

    在本系列前面的文章中我们已经了解了,在我们从一个TI SensorTag中获取温度和湿度数据之前,我们需要经历的各种步骤.在本系列中的最后一篇文章,我们将完成注册并接收SensorTag的通知,并接收 ...

  4. SPOJ-COT-Count on a tree(树上路径第K小,可持久化线段树)

    题意: 求树上A,B两点路径上第K小的数 分析: 同样是可持久化线段树,只是这一次我们用它来维护树上的信息. 我们之前已经知道,可持久化线段树实际上是维护的一个前缀和,而前缀和不一定要出现在一个线性表 ...

  5. MySQL的Grant命令

    来源:http://yingxiong.javaeye.com/blog/451208   本文实例,运行于 MySQL 5.0 及以上版本. MySQL 赋予用户权限命令的简单格式可概括为: gra ...

  6. 让DataGridView的标题显示中文

    一般情况,DataTable中用来区分不同列的值,使用DataTable.Columns.ColumnsName,但是DataTable的Columns还有一个Caption属性,在这个属性里面可以用 ...

  7. 开发备必:WEB前端开发规范文档

    为提高团队协作效率, 便于后台人员添加功能及前端后期优化维护, 输出高质量的文档, 特制订此文档. 本规范文档一经确认, 前端开发人员必 须按本文档规范进行前台页面开发. 本文档如有不对或者不合适的地 ...

  8. 双11不再孤单,结识ECharts---强大的常用图表库

    又是一年双十一,广大单身狗们有没有很寂寞(好把,其实我也是)!但是这次的双十一,我不再孤单,因为结识了一个js的强大的图表库---ECharts. 最近做软件工程项目的时候,由于设计图中有柱状图和饼图 ...

  9. CSU 1505 酷酷的单词 湖南省赛第十届题目

    题目链接:http://acm.csu.edu.cn/OnlineJudge/problem.php?id=1505 题意:技巧题,就是一行字符串中,每个字母出现的次数互不相同,复即为酷的单词. 解题 ...

  10. StoryBoard 的使用

    简单入门: http://my.oschina.net/plumsoft/blog/53886 详细操作:http://www.cnblogs.com/buro79xxd/archive/2012/0 ...