最近在做一个银行的生产数据脱敏系统,今天写代码时遇到了一个“瓶颈”,脱敏系统需要将生产环境上Infoxmix里的数据原封不动的Copy到另一台 Oracle数据库服务器上,然后对Copy后的数据作些漂白处理。为了将人为干预的因素降到最低,在系统设计时采用Java代码对数据作Copy,思路

    首 先在代码与生产库间建立一个Connection,将读取到的数据放在ResultSet对象,然后再与开发库建立一个Connection。从 ResultSet取出数据后通过TestConnection插入到开发库,以此来实现Copy。代码写完后运行程序,速度太慢了,一秒钟只能Copy 一千条数据,生产库上有上亿条数据,按照这个速度同步完要到猴年马月呀,用PreparedStatement批处理速度也没有提交多少。我想能不能用多 线程处理,多个人干活总比一个人干活速度要快。
    假设生产库有1万条数据,我开5个线程,每个线程分2000条数据,同时向开发库里插数据,Oracle支持高并发这样的话速度至少会提高好多倍,按照这 个思路重新进行了编码,批处理设置为1万条一提交,统计插入数量的变量使用 java.util.concurrent.atomic.AtomicLong,程序一运行,传输速度飞快CPU利用率在70%~90%,现在一秒钟可 以拷贝50万条记录,没过几分钟上亿条数据一条不落地全部Copy到目标库。

在查询的时候我用了如下语句

  1. String queryStr = "SELECT * FROM xx";
  2. ResultSet coreRs = PreparedStatement.executeQuery(queryStr);

实习生问如果xx表里有上千万条记录,你全部查询出来放到ResultSet, 那内存不溢出了么?Java在设计的时候已经考虑到这个问题了,并没有查询出所有的数据,而是只查询了一部分数据放到ResultSet,数据“用完”它 会自动查询下一批数据,你可以用setFetchSize(int rows)方法设置一个建议值给ResultSet,告诉它每次从数据库Fetch多少条数据。但我不赞成,因为JDBC驱动会根据实际情况自动调整 Fetch的数量。另外性能也与网线的带宽有直接的关系。
相关代码

package com.dlbank.domain;  
   
 import java.sql.Connection;  
 import java.sql.PreparedStatement;  
 import java.sql.ResultSet;  
 import java.sql.Statement;  
 import java.util.List;  
 import java.util.concurrent.atomic.AtomicLong;  
   
 import org.apache.log4j.Logger;  
   
 /**
  * <p>
  * title: 数据同步类
  * </p>
  * <p>
  * Description: 该类用于将生产核心库数据同步到开发库
  * </p>
  * 
  * @author Tank Zhang
  */  
 public class CoreDataSyncImpl implements CoreDataSync {  
       
     private List<String> coreTBNames; // 要同步的核心库表名
     private ConnectionFactory connectionFactory;  
     private Logger log = Logger.getLogger(getClass());  
       
     private AtomicLong currentSynCount = new AtomicLong(0L); // 当前已同步的条数
       
     private int syncThreadNum;  // 同步的线程数
   
     @Override  
     public void syncData(int businessType) throws Exception {  
           
         for (String tmpTBName : coreTBNames) {  
             log.info("开始同步核心库" + tmpTBName + "表数据");  
             // 获得核心库连接
             Connection coreConnection = connectionFactory.getDMSConnection(4);  
             Statement coreStmt = coreConnection.createStatement();  
             // 为每个线程分配结果集
             ResultSet coreRs = coreStmt.executeQuery("SELECT count(*) FROM "+tmpTBName);  
             coreRs.next();  
             // 总共处理的数量
             long totalNum = coreRs.getLong(1);  
             // 每个线程处理的数量
             long ownerRecordNum =(long) Math.ceil((totalNum / syncThreadNum));   
             log.info("共需要同步的数据量:"+totalNum);  
             log.info("同步线程数量:"+syncThreadNum);  
             log.info("每个线程可处理的数量:"+ownerRecordNum);  
             // 开启五个线程向目标库同步数据
             for(int i=0; i < syncThreadNum; i ++){  
                 StringBuilder sqlBuilder = new StringBuilder();  
                 // 拼装后SQL示例
                 // Select * From dms_core_ds Where id between 1 And 657398
                 // Select * From dms_core_ds Where id between 657399 And
     // 1314796
                 // Select * From dms_core_ds Where id between 1314797 And
     // 1972194
                 // Select * From dms_core_ds Where id between 1972195 And
     // 2629592
                 // Select * From dms_core_ds Where id between 2629593 And
     // 3286990
                 // ..
                 sqlBuilder.append("Select * From ").append(tmpTBName)  
                         .append(" Where id between " ).append(i * ownerRecordNum +1)  
                         .append( " And ")  
                         .append((i * ownerRecordNum + ownerRecordNum));  
                 Thread workThread = new Thread(  
                         new WorkerHandler(sqlBuilder.toString(),businessType,tmpTBName));  
                 workThread.setName("SyncThread-"+i);  
                 workThread.start();  
             }  
             while (currentSynCount.get() < totalNum);  
             // 休眠一会儿让数据库有机会commit剩余的批处理(只针对JUnit单元测试,因为单元测试完成后会关闭虚拟器,使线程里的代码没有机会作提交操作);
             // Thread.sleep(1000 * 3);
             log.info( "核心库"+tmpTBName+"表数据同步完成,共同步了" + currentSynCount.get() + "条数据");  
         }  
     }// end for loop
       
     public void setCoreTBNames(List<String> coreTBNames) {  
         this.coreTBNames = coreTBNames;  
     }  
   
     public void setConnectionFactory(ConnectionFactory connectionFactory) {  
         this.connectionFactory = connectionFactory;  
     }  
       
     public void setSyncThreadNum(int syncThreadNum) {  
         this.syncThreadNum = syncThreadNum;  
     }  
       
     // 数据同步线程
     final class WorkerHandler implements Runnable {  
         ResultSet coreRs;  
         String queryStr;  
         int businessType;  
         String targetTBName;  
         public WorkerHandler(String queryStr,int businessType,String targetTBName) {  
             this.queryStr = queryStr;  
             this.businessType = businessType;  
             this.targetTBName = targetTBName;  
         }  
         @Override  
         public void run() {  
             try {  
                 // 开始同步
                 launchSyncData();  
             } catch(Exception e){  
                 log.error(e);  
                 e.printStackTrace();  
             }  
         }  
         // 同步数据方法
         void launchSyncData() throws Exception{  
             // 获得核心库连接
             Connection coreConnection = connectionFactory.getDMSConnection(4);  
             Statement coreStmt = coreConnection.createStatement();  
             // 获得目标库连接
             Connection targetConn = connectionFactory.getDMSConnection(businessType);  
             targetConn.setAutoCommit(false);// 设置手动提交
             PreparedStatement targetPstmt = targetConn.prepareStatement("INSERT INTO " + targetTBName+" VALUES (?,?,?,?,?)");  
             ResultSet coreRs = coreStmt.executeQuery(queryStr);  
             log.info(Thread.currentThread().getName()+"'s Query SQL::"+queryStr);  
             int batchCounter = 0; // 累加的批处理数量
             while (coreRs.next()) {  
                 targetPstmt.setString(1, coreRs.getString(2));  
                 targetPstmt.setString(2, coreRs.getString(3));  
                 targetPstmt.setString(3, coreRs.getString(4));  
                 targetPstmt.setString(4, coreRs.getString(5));  
                 targetPstmt.setString(5, coreRs.getString(6));  
                 targetPstmt.addBatch();  
                 batchCounter++;  
                 currentSynCount.incrementAndGet();// 递增
                 if (batchCounter % 10000 == 0) { // 1万条数据一提交
                     targetPstmt.executeBatch();  
                     targetPstmt.clearBatch();  
                     targetConn.commit();  
                 }  
             }  
             // 提交剩余的批处理
             targetPstmt.executeBatch();  
             targetPstmt.clearBatch();  
             targetConn.commit();  
             // 释放连接
             connectionFactory.release(targetConn, targetPstmt,coreRs);  
         }  
     }  
 }

java实现高性能的数据同步的更多相关文章

  1. Java多线程学习笔记——从Java JVM对多线程数据同步的一些理解

       我们知道在多线程编程中,我们很大的一部分内容是为了解决线程间的资源同步问题和线程间共同协作解决问题.线程间的同步,通俗我们理解为僧多粥少,在粥有限情况下,我们怎么去防止大家有秩序的喝到粥,不至于 ...

  2. java线程基础巩固---数据同步引入并结合jconsole,jstack以及汇编指令认识synchronized关键字

    对于多线程编程而言其实老生成谈的就是数据同步问题,接下来就会开始接触这块的东东,比较麻烦,但是也是非常重要,所以按部就班的一点点去专研它,下面开始. 数据同步引入: 这里用之前写过的银行叫号的功能做为 ...

  3. Java线程安全与数据同步

    import java.util.HashMap; import java.util.concurrent.TimeUnit; public class Test { public static vo ...

  4. java读写锁实现数据同步访问

    锁机制最大的改进之一就是ReadWriteLock接口和它的唯一实现类ReentrantReadWriteLock.这个类有两个锁,一个是读操作锁,另一个是写操作锁.使用读操作锁时可以允许多个线程同时 ...

  5. java 线程数据同步

    java 线程数据同步 由买票实例 //java线程实例 //线程数据同步 //卖票问题 //避免重复卖票 //线程 class xc1 implements Runnable{ //定义为静态,可以 ...

  6. Java多线程初学者指南(9):为什么要进行数据同步

    Java中的变量分为两类:局部变量和类变量.局部变量是指在方法内定义的变量,如在run方法中定义的变量.对于这些变量来说,并不存在线程之间共享的问题.因此,它们不需要进行数据同步.类变量是在类中定义的 ...

  7. JAVA通过Gearman实现MySQL到Redis的数据同步(异步复制)

    MySQL到Redis数据复制方案 无论MySQL还是Redis,自身都带有数据同步的机制,像比较常用的 MySQL的Master/Slave模式 ,就是由Slave端分析Master的binlog来 ...

  8. java数据同步陷阱

    并发,我的理解就是同时运行多个程序.同时,难以避免的就是数据的同步问题,如果数据同步问题处理不好就很容易造成程序出现bug,当然,对于其造成的危害,不加详述. 首先,来看一个简单的例子,当然,这个例子 ...

  9. java——多线程的实现方式、三种办法解决线程赛跑、多线程数据同步(synchronized)、死锁

    多线程的实现方式:demo1.demo2 demo1:继承Thread类,重写run()方法 package thread_test; public class ThreadDemo1 extends ...

随机推荐

  1. Eclipse 正则表达式 查找与替换

    CTRL + space in the textboxes gives you all kinds of suggestions for regular expression writing. 查找 ...

  2. Revit API单位转换类

    用法:txt.Text=UnitConvertC.CovertFromAPI(param.AsDouble());param.Set(UnitConvertC.CovertToAPI(txt.Text ...

  3. MORMOT的数据序列

    MORMOT的数据序列 mormot服务器回复客户端通过Ctxt.OutContent属性. 此属性的类型是:SockString.   // property OutContent: SockStr ...

  4. 【Elasticsearch】ES中时间查询报错:Caused by: ElasticsearchParseException[failed to parse date field [Sun Dec 31 16:00:00 UTC 2017] with format [yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis]];

    ES中时间查询报错:Caused by: ElasticsearchParseException[failed to parse date field [Sun Dec 31 16:00:00 UTC ...

  5. Oracle的tnsnames.ora 监听配置文件详解

    监听配置文件 为了使得外部进程 如 CAMS后台程序 能够访问 Oracle 数据库 必须配 置 Oracle 网络服务器环境 配置 Oracle 网络服务器环境是通过配置 listener.ora ...

  6. Linux学习12-CentOS设置多个tomcat开机自启动

    前言 一台服务器上有多个tomcat环境,重启服务器后,每次需要手动一个个启动服务,非常麻烦,于是可以设置tomcat开机自启动. tomcat开机自启动非常慢,可以修改jvm下配置解决tomcat开 ...

  7. java 反射原理写了一个赋值和取值通用类

    首先了解一下反射的原理,什么是反射?所谓的反射就是指java 语言在运行时拥有一项自观的能力,反射能使你得到装载到 jvm 中的类的内部信息,它不需要你在编码的时候就知道所需类的内部信息,允许程序执行 ...

  8. 疑犯追踪第五季/全集Person of Interest迅雷下载

    英文全名Person of Interest,第5季(2015)CBS.本季看点:<疑犯追踪>本季剧组暗示Finch可能重建机器,这次他会给机器更多自由(如Root一直要求的那样).或许新 ...

  9. 《Erlang程序设计(第2版)》

    <Erlang程序设计(第2版)> 基本信息 作者: (瑞典)Joe Armstrong 译者: 牛化成 丛书名: 图灵程序设计丛书 出版社:人民邮电出版社 ISBN:9787115354 ...

  10. CDR话单主要字段介绍

    l  Time of call connection RRC连接时的时间,格式:yyyy年mm月dd日hh时mm分ss秒 l  Call Setup Time per sections 呼叫建立时长 ...