kettle系列-6.kettle实现多字段字典快速翻译

　　在数据清洗转换中，常见的字典翻译，如性别在原表中是1（男）、2（女）等，类似还有很多较大的字典需要翻译，若同一个表中有很多个字典需要翻译，采用【数据库查询】方式翻译的话效率就会相当低下。

　　这里采用java代码来翻译，初始化时将相关字典加载到内存中，此后就不需要再查询数据库了，然后每条记录进来就翻译各个字典，其实很简单，只是【java代码】这个控件限制较多，不支持泛型、this并不是步骤本身、能使用的方法都列在了左侧，使用起来不是很方便。关于字典翻译这个事，其实写一个专门的控件也不难，也是很不错的一个主意，只是没有真正完整的写个一个控件（后台实现和ui部分等），要写的话比较耗时，暂时就采用java代码实现，有时间可以考虑写这么个控件。

　　算了废话太多，测试转换如下图

　　自定义常量就是模拟了几条数据，你可以直接传递要翻译的数据，写日志就是看看翻译结果，【java代码】中的代码如下：

import java.util.Arrays;

import java.util.List;

import java.util.HashMap;

import java.util.Map;

import org.pentaho.di.core.database.Database;

import org.pentaho.di.core.database.DatabaseMeta;

import org.pentaho.di.repository.Repository;

import org.pentaho.di.core.Const;

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException

{

    if (first){

      first = false;

      /* TODO: Your code here. (Using info fields)

      FieldHelper infoField = get(Fields.Info, "info_field_name");

      RowSet infoStream = findInfoRowSet("info_stream_tag");

      Object[] infoRow = null;

      int infoRowCount = 0;

      // Read all rows from info step before calling getRow() method, which returns first row from any

      // input rowset. As rowMeta for info and input steps varies getRow() can lead to errors.

      while((infoRow = getRowFrom(infoStream)) != null){

        // do something with info data

        infoRowCount++;

      }

      */

    }

    Object[] r = getRow();

    if (r == null) {

      setOutputDone();

      return false;

    }

    //获取要翻译字典的代码

    String kkdm = get(Fields.In, "kkdm").getString(r);

    String cllx = get(Fields.In, "cllx").getString(r);

    // It is always safest to call createOutputRow() to ensure that your output row's Object[] is large

    // enough to handle any new fields you are creating in this step.

    r = createOutputRow(r, data.outputRowMeta.size());

    //翻译字典并设置到输出字段中

    get(Fields.Out, "kkmc").setValue(r, kkzdMap.get(kkdm));

    get(Fields.Out, "cxmc").setValue(r, cxzdMap.get(cllx));

    /* TODO: Your code here. (See Sample)

    // Get the value from an input field

    String foobar = get(Fields.In, "a_fieldname").getString(r);

    foobar += "bar";

    // Set a value in a new output field

    get(Fields.Out, "output_fieldname").setValue(r, foobar);

    */

    // Send the row on to the next step.

    putRow(data.outputRowMeta, r);

    return true;

}

//定义字典缓存Map

public static Map cxzdMap = new HashMap();

public static Map kkzdMap = new HashMap();

public boolean init(StepMetaInterface stepMetaInterface, StepDataInterface stepDataInterface)

{

      try {

        //连接数据库，pg_test是数据库名称，在左侧db连接处创建

        DatabaseMeta dbmeta = DatabaseMeta.findDatabase(this.getTrans().getRepository().readDatabases(), "pg_test");

        Database zddb = new Database(this.getTrans(),dbmeta);

        logBasic(zddb.getObjectName());

        zddb.shareVariablesWith( this.getTrans() );

        zddb.setQueryLimit( Const.toInt( this.getTrans().environmentSubstitute( "100" ), 0 ) );

          try {

              if ( getTransMeta().isUsingUniqueConnections() ) {

                  synchronized ( getTrans() ) {

                      zddb.connect( getTrans().getTransactionId(), "zdfy" );

                    logBasic(zddb.getObjectId().toString());

                  }

                } else {

                    zddb.connect( getTrans().getTransactionId(), null );

                }

            }catch ( KettleException e ) {

                logError( "An error occurred, processing will be stopped: " + e.getMessage() );

                setErrors( 1 );

                stopAll();

             }

          if ( dbmeta.isRequiringTransactionsOnQueries() ) {

              zddb.setCommit( 100 );

          }

          logBasic(Arrays.asList(zddb.getTablenames()).toString());

          //查询字典表，获取字典数据本缓存到对应Map中

          List list = zddb.getRows("SELECT * from t_cxzd", 1000);

          for(int i=0;i<list.size();i++){

              Object[] objs = (Object[]) list.get(i);

              cxzdMap.put(objs[0].toString(), objs[1].toString());

          }

          logBasic(cxzdMap.entrySet().toString());

          list = zddb.getRows("SELECT * from t_kkzd", 1000);

          for(int i=0;i<list.size();i++){

              Object[] objs = (Object[]) list.get(i);

              kkzdMap.put(objs[0].toString(), objs[1].toString());

          }

          logBasic(kkzdMap.entrySet().toString());

          zddb.disconnect();

    } catch (KettleException e1) {

        logError("获取数据库失败", e1);

    }

    return parent.initImpl(stepMetaInterface, stepDataInterface);

}

kettle系列-6.kettle实现多字段字典快速翻译的更多相关文章

kettle系列-1.kettle源码获取与运行
第一次写博客,心里有点小激动,肯定有很多需要改进的地方,望海涵. kettle算是我相对较为深入研究过的开源软件了,也是我最喜欢的开源软件之一,它可以完成工作中很多体力劳动,在ETL数据抽取方面得到了 ...
kettle系列-[KettleUtil]kettle插件，类似kettle的自定义java类控件
该kettle插件功能类似kettle现有的定义java类插件,自定java类插件主要是支持在kettle中直接编写java代码实现自定特殊功能,而本控件主要是将自定义代码转移到jar包,就是说自定义 ...
kettle系列-5.kettle实现二进制文件迁移
本文就是分享下二进制文件(图片.txt文件等)在oracle和文件系统间的传输的转换示例. 转换示例如下图: 示例本身较简单,但很多人应该还是不太清楚怎么做,很多时候都是上网搜索,网上有关的就是通过j ...
kettle系列-4.kettle定制化开发工具类
要说的话这个工具类还是比较简单的,每个方法体都比较小,但用起来还是可以的,把开发中一些常用的步骤封装了下,不用去kettle源码中找相关操作的具体实现了. 算了废话不多了,直接上重点,代码如下: im ...
kettle系列-3.kettle读取数据库资源库很慢的优化
环境:windows7,jvm内存设置14G,kettle5.1后来升级到5.4,oracle作为资源库. 问题背景:我们通过web页面管理kettle的job运行,这只是一个管理界面,即使web项目 ...
kettle系列-2.kettle源码结构分析
kettle是一个开源产品,产品本身设计是很优秀的,代码应该是很多开源爱好者用业余时间贡献的,代码整体结构还是比较容易理解的,但具体到每一个控件内部就因人而异了,感觉还是挺复杂的,肯定别人考虑得比较全 ...
kettle系列-我的开源kettle调度、管理平台[kettle-manager]介绍
kettle管理工具专门为kettle这款优秀的ETL工具开发的web端调度.管理工具. 新版本项目简介 kettle作为非常优秀的开源ETL工具得到了非常广泛的使用,一般的使用的都是使用客户端操 ...
开源ETL工具kettle系列之常见问题
开源ETL工具kettle系列之常见问题摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...
kettle系列一之eclipse开发
1.引言最近公司开始一个etl项目,底层结合开源的kettle进行开发.那么学习kettle势在必行,kettle的使用在这里就不用介绍了,网上有很多的资料.例如:kettle中文社区,我们在这里主 ...

随机推荐

让 FreeBSD 和 Gentoo Linux 在 ZFS 存储卷上共存
自我回归到 Librem 15 已经有段时间了.我一般会选择 FreeBSD 来处理所有的事情,但有时会要访问一个运行在 Librem 平台上的 Linux OS,以便用它来帮助我对一些遗留的设备驱动 ...
BZOJ3932: [CQOI2015]任务查询系统
传送门真不知道我没学主席树之前是有什么勇气说自己高级数据结构以及学的七七八八了. 这道题应该也是算是主席树的经典运用. 刚开始脑抽了,想把(S,E,P)的处理直接在线用树状数组xjb搞搞算了.写完后 ...
jQuery 中 jQuery(function(){})与(function(){})(jQuery) 的区别
$(document).ready(function(){ // 在这里写你的代码... }); 在DOM加载完成时运行的代码可以简写成 jQuery(function(){ // 在这里写你的代码 ...
【先定一个小目标】windows下安装RabbitMQ消息服务器
RabbitMQ是一个在AMQP基础上完整的,可复用的企业消息系统.他遵循Mozilla Public License开源协议. 1:安装RabbitMQ 需要先安装Erlang语言开发包.下载地址 ...
[Java] Maven 安装和配置
1. 下载 Maven 在百度输入 Maven 搜索 ,找到它的官网(http://maven.apache.org/),点击进入下载页面. 下载页面地址: http://maven.apache.o ...
npm 发布到远程资源库
一.npm 发布到远程资源库 1.创建package.json Package.json 属性说明 name - 包名. version - 包的版本号. description - 包的描述. ho ...
phpstorm常用功能&快捷键（mac）
command + delete 删除整行 option + comman +enter 下面增加一行 command + D 复制出一行 command + / 单行注释 control + shi ...
Eclipse部署Maven web项目到tomcat服务器时，没有将lib下的jar复制过去的解决办法
我们在做web开发是,经常都要在eclipse中搭建web服务器,并将开发中的web项目部署到web服务器进行调试,在此,我选择的是tomcat服务器.之前部署web项目到tomcat进行启动调试都很 ...
使用Cocos2d-x实现微信“天天爱消除”炫耀button特效
引言Cocos2d-x引擎中有很多Action,这样可以方便的让开发者调用相应的Action去完成一些动作,例如:移动,弹跳,淡入淡出等.可在实际的开发过程中,由于游戏的需要,显然地,引擎自带的Act ...
JS这些代码你都不会，你还有什么好说的！！！
都说自己工资低的,先看看这些代码你能写出来不?这些都不会,你还嫌工资?

kettle系列-6.kettle实现多字段字典快速翻译

kettle系列-6.kettle实现多字段字典快速翻译的更多相关文章

随机推荐

热门专题