kettle大数据量读写mysql性能优化

修改kettleDB连接设置

1. 增加批量写的速度：
useServerPrepStmts=false
rewriteBatchedStatements=true
useCompression=true
2. 增加读的速度：
useServerPrepStmts=true
cachePrepStmts=true

参数说明：

1）useCompression=true，压缩数据传输，优化客户端和MySQL服务器之间的通信性能。

2）rewriteBatchedStatements=true ，开启批量写功能

将会使大批量单条插入语句：

INSERT INTO t (c1,c2) VALUES ('One',1);
INSERT INTO t (c1,c2) VALUES ('Two',2);
INSERT INTO t (c1,c2) VALUES ('Three',3);

改写成真正的批量插入语句：

INSERT INTO t (c1,c2) VALUES ('One',1),('Two',2),('Three',3);

3）useServerPrepStmts=false 关闭服务器端编译，sql语句在客户端编译好再发送给服务器端，发送语句如上。

如果为true,sql会采用占位符方式发送到服务器端，在服务器端再组装sql语句。

占位符方式：INSERT INTO t (c1,c2) VALUES (？,？),(？,？),(？,？);

此方式就会产生一个问题，当列数*提交记录数>65535

时就会报错：Prepared statement contains too many placeholders,

这是由于我把“提交记录数量”设为10000，而要插入记录的表字段有30个，所以要进行批量插入时需要30*10000=300000 > 65535 ，故而报错。

解决方案：

方案1：把DB连接中的 rewriteBatchedStatements 给设置为false（或者去掉），不过这个操作会影响数据的插入速度。

方案2：更改表输出的设计。确保30个输出字段的和提交记录数量的乘积不超过65535。比如把提交记录数量由10000更改为450（30*2000=60000< 65535）

当然我们的目的是为了提高数据库写速度，所以当rewriteBatchedStatements =true时useServerPrepStmts=false必须配合使用。

mysql参数调优可以参考如下文档

https://dev.mysql.com/doc/connectors/en/connector-j-reference-configuration-properties.html

数据丢失问题：

性能提升后，遇到另外个问题，86万数据丢失了130多条，kettle无报错，各种mysql参数设置之后都无效果，耗时近一天，最终查到是重复数据导致。

估计是因为重复数据在mysql写不进去导致该批次数据写失败，但是kettle无报错这个就比较坑。

解决办法就是：1）取消数据表主键或者唯一索引，当然这是治标不治本的做法。2）根本的做法就是排查重复数据，从源头杜绝重复数据

参考文档：

https://blog.csdn.net/smooth00/article/details/69389424?utm_source=itdadao&utm_medium=referral

http://www.jackieathome.net/archives/169.html

kettle大数据量读写mysql性能优化的更多相关文章

大数据量时Mysql的优化
(转自网络) 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB.对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求.这个时候NoSQL的出现暂时 ...
spring Batch实现数据库大数据量读写
spring Batch实现数据库大数据量读写博客分类: spring springBatchquartz定时调度批处理 1. data-source-context.xml <?xml v ...
大数据量数据库设计与优化方案(SQL优化)
转自:http://blog.sina.com.cn/s/blog_6c0541d50102wxen.html 一.数据库结构的设计如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的 ...
java excel大数据量导入导出与优化
package com.hundsun.ta.utils; import java.io.File; import java.io.FileOutputStream; import java.io.I ...
总结MySQL大数据量下如何进行优化
写在建库前: 在确定数据库业务后.建立数据库表格时,就应对一些常见问题有所考虑,以避免在数据增长一段时间后再做应对,可能造成时间及维护成本增加: 数据的月增量,年增量数据的快速增长点是否需要触发器 ...
大数据量时 Mysql LIMIT如何正确对其进行优化（转载）
以下的文章主要是对Mysql LIMIT简单介绍,我们大家都知道LIMIT子句一般是用来限制SELECT语句返回的实际行数.LIMIT取1个或是2个数字参数,如果给定的是2个参数,第一个指定要返回的第 ...
大数据量下MySQL插入方法的性能比较
不管是日常业务数据处理中,还是数据库的导入导出,都可能遇到需要处理大量数据的插入.插入的方式和数据库引擎都会对插入速度造成影响,这篇文章旨在从理论和实践上对各种方法进行分析和比较,方便以后应用中插入方 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
JAVA JDBC大数据量导入Mysql
转自https://blog.csdn.net/q6834850/article/details/73726707?tdsourcetag=s_pctim_aiomsg 采用JDBC批处理(开启事务. ...

随机推荐

iPhone手机更换自定义铃声
①首先将iPhone手机(iPhone5s)的数据线插入电脑USB接口中,然后打开iTunes(12.4.3.1)-->文件-->将文件添加到资料库 ②选中音乐文件-->点击编辑-- ...
python异常处理机制
python有五种异常处理机制,分别是 1.默认异常处理器. 如果我们没有对异常进行任何预防,那么程序在执行过程中发生异常就会中断程序,调用python默认的异常处理器,并在终端输出异常信息,如图所示 ...
LeetCode 81 搜索旋转排序数组II
题目: 假设按照升序排序的数组在预先未知的某个点上进行了旋转. ( 例如,数组 [0,0,1,2,2,5,6] 可能变为 [2,5,6,0,0,1,2] ). 编写一个函数来判断给定的目标值是否存在于 ...
拉格朗日乘子法&KKT条件
朗日乘子法(Lagrange Multiplier)和KKT(Karush-Kuhn-Tucker)条件是求解约束优化问题的重要方法,在有等式约束时使用拉格朗日乘子法,在有不等约束时使用KKT条件.前 ...
C# 连接池开发，多连接高效应用开发，多连接自动维护管理。
本文将使用一个Github开源的组件库技术来实现连接池的操作,应用于一些情况下的频繁的网络连接操作. github地址:https://github.com/dathlin/HslCommunicat ...
Logging常用handlers的使用
一.StreamHandler 流handler——包含在logging模块中的三个handler之一. 能够将日志信息输出到sys.stdout, sys.stderr 或者类文件对象(更确切点,就 ...
MarkDown学习——基础用法
目录 MarkDown开发版本MD2All基础用法此处有代码<a id="top"></a>作为页内锚点此处是用自动生成的目录 MarkDown是什么M ...
XXS level8
(1)查看PHP源代码 <?php ini_set("display_errors", 0); $str = strtolower($_GET["keyword&q ...
CXF develop Webserice Tuturial
1. 修改pom.xml 在Maven中引入CXF 依赖包 1.1 引入CXF依赖包 ,配置Tomcat插件及其它 <project xmlns="http://maven.apach ...
[cf1038E][欧拉路]
http://codeforces.com/contest/1038/problem/E E. Maximum Matching time limit per test 2 seconds memor ...

kettle大数据量读写mysql性能优化

kettle大数据量读写mysql性能优化的更多相关文章

随机推荐

热门专题