数据库调优过程（一）：SqlServer批量复制(bcp)[C#SqlBulkCopy]性能极低问题

背景

　　最近一段给xx做项目，这边最头疼的事情就是数据库入库瓶颈问题。

环境

　　服务器环境：虚拟机，分配32CPU，磁盘1.4T，4T,5T，6T几台服务器不等同（转速都是7200r），内存64G。

排查步骤

　　排查一：数据库恢复模式为简单模式，数据库和tempdb的初始大小。数据库文件初始化大小100G，日志文件初始化大小50G，两个文件都是自动增长（按10%）；tempdb初始化大小10G*4个文件，日志5G*4个文件，两个文件都是自动增长（按10%），分布在两个磁盘中（但看了这篇文章后，有点傻眼了。）；

排查二：设置数据库占用最大内存为30G；

排查二：数据库表删掉所有索引，除了PK（OID bigint,Time datetime）分区使用了Time字段（看了这篇文章，为后边担忧）；

排查三：系统windows server 2008(Vista内核)，升级为windows server 2008 R2 SP1(WIN7内核)；

排查四：批量入库一次批量入库的次数，目前还在调整中，把BatchSize设置为一个合适的值，是50W，还是200W呢？（BCP原理篇，推荐参数配置，设置多大合适？）

测试结果：

-- 300w batch insert two tables,batch size:1w ,with (first table with 5ix+pk,second table with 1ix+pk)
--server:ip\network 8 minutes

-- 300w batch insert two tables,batch size:300w,with (first table with 5ix+pk,second table with 1ix+pk)
--server:ip\network 8 minutes

-- 300w batch insert two tables,batch size:1000,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 8 minutes

-- 300w batch insert two tables,batch size:5000,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 4.5 minutes

-- 300w batch insert two tables,batch size:1w,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 4 minutes

-- 300w batch insert two tables,batch size:5w,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 5 minutes

-- 300w batch insert two tables,batch size:10w,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 4.5 minutes

-- 300w batch insert two tables,batch size:50w,with (first table with 0ix+pk,second table with 0ix+pk)
--server:local\network 5 minutes

测试2：

records 500000
batchsize 5000
insert two tables(first table with 0ix,1pk)
use times:first table use:29s,second table use:19s

records 500000
batchsize 10000
insert two tables(first table with 0ix,1pk)
use times:first table use:22s,second table use:14s

records 500000
batchsize 50000
insert two tables(first table with 0ix,1pk)
use times:first table use: 30s,second table use:18s

排查五：数据库连接字符串把172.21.xxx.xxx\work，修改为(local)\work或者.\work，是否可以采用共享内存的方式来建立连接呢？目前还未测试。（实战篇，微软文档篇）

连接字符串参数：

Data Source

- 或 -

Server

- 或 -

Address

- 或 -

Addr

- 或 -

Network Address

默认值：

N/A

要连接的 SQL Server 实例的名称或网络地址。可以在服务器名称之后指定端口号：

server=tcp:servername, portnumber

指定本地实例时，始终使用 (local)。若要强制使用某个协议，请添加下列前缀之一：

np:(local), tcp:(local), lpc:(local)

连接字符串参数：

Network Library

- 或 -

Net

默认值：

'dbmssocn'

用于建立与 SQL Server 实例的连接的网络库。支持的值包括 dbnmpntw（命名管道）、dbmsrpcn（多协议）、dbmsadsn (Apple Talk)、dbmsgnet (VIA)、dbmslpcn（共享内存）及 dbmsspxn (IPX/SPX) 和 dbmssocn (TCP/IP)。

相应的网络 DLL 必须安装在要连接的系统上。如果不指定网络而使用一个本地服务器（比如“.”或“(local)”），则使用共享内存。

排查六：SqlBulkCopy参数SqlBulkCopyOptions设置

1. 有标识列的表
　　1. 1 SqlBulkCopyOptions.KeepIdentity 必须设置！否则会出现复制过去的数据产生标识列发现变化的情况！
　　1.2 如果原表的标识列即为主键，那按1.1 的设置已足够。如果原表无主键，那在复制之前必须先清空原表(truncate table)，否则会出现多个相同的标识值的列！
2. 为NULL值的列
　　2.1 SqlBulkCopyOptions.KeepNulls 必须设置！否则会出现源数据的字段为NULL时，复制过去却成了默认值！

其它几个选项的说明与分析：
　　Default 对所有选项使用默认值。
　　KeepIdentity 保留源标识值。如果未指定，则由目标分配标识值。
　　CheckConstraints 请在插入数据的同时检查约束。默认情况下，不检查约束。
　　TableLock 在批量复制操作期间获取批量更新锁。如果未指定，则使用行锁。
　　KeepNulls 保留目标表中的空值，而不管默认值的设置如何。如果未指定，则空值将由默认值替换（如果适用）。
　　FireTriggers 指定后，会导致服务器为插入到数据库中的行激发插入触发器。默认情况下，　是不激发触发器的……
　　UseInternalTransaction 如果已指定，则每一批批量复制操作将在事务中发生。在一个事务中执行，要么都成功，要么都不成功。

Default 就没有什么好说的了，不要
KeepIdentity 和 KeepNulls 上面已有了，不再分析。
CheckConstraints 不需要，因为是现成的数据，既然已在DB中，必然是通过了约束检查的。
TableLock 不需要，因为复制时两个库都需要处于单连接状态，不可能有干扰。
FireTriggers 一般就不需要了吧，毕竟只是复制数据，而且是现成的数据……
UseInternalTransaction 关系也不大，反正复制失败会记录到自定义的日志，失败了也知道，重来一次就可以了。

排查七、表是否有trigger,check等。

参考资料：http://stackoverflow.com/questions/15526797/sqlbulkcopy-performance

Prerequisites for Minimal Logging in Bulk Import：https://msdn.microsoft.com/en-us/library/ms190422(v=sql.105).aspx

Optimizing Bulk Import Performance：https://msdn.microsoft.com/en-us/library/ms190421(v=sql.105).aspx

别人给的建议

ETL来处理:

　　针对这个解决方案，搜索了后才知道微软的SSIS中是支持ETL的（实战1、实战2篇，微软文档篇）。具体需要测试才知道结果。

内存处理：

　　就是把未能处理的数据放到内存中，使用Redis或者memcached来存储，之后把这样的数据源排队性的存储到sqlsever 2008 R2数据库中，该方案可行性还需要测试，到底需要多大的设备，一个上边同样配置的虚拟机能存储多少条记录会内存满负载，这是该方案是否成立的根本问题，问题是我们需要的是数据量在几百亿量级的数据，这样的情况需要测试才会有结论。

　　另外，看到SqlServer2014（SQL 2014新功能介绍系列1 – 内存中 OLTP (In-Memory OLTP)）也做了比较大的调整，基本上支持内存存储，可以异步快速存储到内存中，该方案以目前设备来说，恐怕行不通。

　　其他，后来搜索过程中学习到了怎么实现一个复制的，复制的场景的应用模式（实战篇）。

用Oracle来替换SqlServer：

　　该方案我也早想去这么去做，回去就给公司建议，不过公司一定会PASS的。。。

参考资料：

DBA博客：http://www.cnblogs.com/CareySon/archive/2012/05/08/2489748.html

DBA问题查找经验总结：http://blog.csdn.net/yynetsdk/article/details/6749529

SqlBulkCopy 实现原汁原味复制的注意事项：http://blog.csdn.net/yenange/article/details/35837247

数据库调优过程（一）：SqlServer批量复制(bcp)[C#SqlBulkCopy]性能极低问题的更多相关文章

记一次数据库调优过程（IIS发过来SQLSERVER 的FETCH API_CURSOR语句是神马？）
记一次数据库调优过程(IIS发过来SQLSERVER 的FETCH API_CURSOR语句是神马?) 前几天帮客户优化一个数据库,那个数据库的大小是6G 这麽小的数据库按道理不会有太大的性能问题的, ...
数据库调优过程（二）：找到IO不存在问题，而是sqlserver单表写入IO瓶颈
物理机上测试IO是否为瓶颈: 使用一个死循环insert into测试数据库最大写入速度: use [iTest]; declare @index int; ; begin ; INSERT into ...
Mysql数据库调优和性能优化的21条最佳实践
Mysql数据库调优和性能优化的21条最佳实践 1. 简介在Web应用程序体系架构中,数据持久层(通常是一个关系数据库)是关键的核心部分,它对系统的性能有非常重要的影响.MySQL是目前使用最多的开 ...
MySQL面试必考知识点：揭秘亿级高并发数据库调优与最佳实践法则
做业务,要懂基本的SQL语句: 做性能优化,要懂索引,懂引擎: 做分库分表,要懂主从,懂读写分离... 数据库的使用,是开发人员的基本功,对它掌握越清晰越深入,你能做的事情就越多. 今天我们用10分钟 ...
[转]10分钟梳理MySQL知识点：揭秘亿级高并发数据库调优与最佳实践法则
转:https://mp.weixin.qq.com/s/RYIiHAHHStIMftQT6lQSgA 做业务,要懂基本的SQL语句: 做性能优化,要懂索引,懂引擎: 做分库分表,要懂主从,懂读写分离 ...
Mysql数据库调优和性能优化
1. 简介在Web应用程序体系架构中,数据持久层(通常是一个关系数据库)是关键的核心部分,它对系统的性能有非常重要的影响.MySQL是目前使用最多的开源数据库,但是mysql数据库的默认设置性能非常 ...
mysql数据库调优
mysql调优硬件配置网络带宽mysql运行参数慢查询日志网络架构多实例(一台服务器上运行多个数据库服务)分库分表当一台数据库服务器处理客户端的请求慢时,可能是哪些原因造成? 硬件配置低:(内存 c ...
OpenTSDB/HBase的调优过程整理
背景过年前,寂寞哥给我三台机器,说搞个新的openTSDB集群.机器硬件是8核16G内存.3个146G磁盘做数据盘. 我说这太抠了,寂寞哥说之前的TSDB集群运行了两年,4台同样配置的机器,目前hd ...
一次jvm调优过程
jvm调优实战前端时间把公司的一个分布式定时调度的系统弄上了容器云,部署在kubernetes,在容器运行的动不动就出现问题,特别容易jvm溢出,导致程序不可用,终端无法进入,日志一直在刷错误,ku ...

随机推荐

typecho流程原理和插件机制浅析（第二弹）
typecho流程原理和插件机制浅析(第二弹) 兜兜 393 2014年04月02日发布推荐 1 推荐收藏 14 收藏,3.7k 浏览上一次说了 Typecho 大致的流程,今天简单说一下插件 ...
PHP基本使用
本篇说的基本使用包括: php常规的语法 date,number,array等对象的处理方式程序语言的常规的语法都比较好理解,大致相同.假如你是精于其它解释型语言的程序员,迁移到php几乎不费力气. ...
微信公众账号开发教程（一）基本原理及微信公众账号注册 ——转自http://www.cnblogs.com/yank/p/3364827.html
微信公众账号开发教程基本原理在开始做之前,大家可能对这个很感兴趣,但是又比较茫然.是不是很复杂?很难学啊? 其实恰恰相反,很简单.为了打消大家的顾虑,先简单介绍了微信公众平台的基本原理. 微信服务 ...
Nginx 常用全局变量及Rewrite规则详解
每次都很容易忘记Nginx的变量,下面列出来了一些常用 $remote_addr //获取客户端ip $binary_remote_addr //客户端ip(二进制) $remote_port //客 ...
spring环境的搭建及作用和定义<一>
问题?spring的定义及作用.spring的环境搭建一.spring的定义及作用 1.spring由Rod Johnson创建的一个开源框架,它是为了解决企业应用开发的复杂性而创建的.框架的主要优 ...
Asp.net forms认证注意事项
1.N台服务器配置文件的相关配置要一致 <authentication mode="Forms"> <forms timeout="3600" ...
js解析Json字符串的方法
要把一个xml字符串转(“1,2,3,4,5,6,7,8,1,2”)换成数组的形式,每个值都应该是number类型的,想当然的就用了split方法,结果...问题来了,服务器要求数组的值是数字,而 ...
Linux下对各种压缩文件处理
Linux下最常用的打包程序就是tar了,使用tar程序打出来的包我们常称为tar包,tar包文件的命令通常都是以.tar结尾的.生成tar包后,就可以用其它的程序来进行压缩了,所以首先就来讲讲ta ...
Solr4+IKAnalyzer的安装配置
一.下载Solr4.10.2 我们以Windows版本为例,solr-4.10.2.zip是目前最新版本,下载地址: http://www.apache.org/dyn/closer.cgi/luce ...
20145211 《Java程序设计》第8周学习总结——自在飞花轻似梦
教材学习内容总结认识NIO Java NIO(New Input/Output)--新的输入/输出API包--是2002年引入到J2SE 1.4里的.Java NIO的目标是提高Java平台上的I/ ...

数据库调优过程（一）：SqlServer批量复制(bcp)[C#SqlBulkCopy]性能极低问题

数据库调优过程（一）：SqlServer批量复制(bcp)[C#SqlBulkCopy]性能极低问题的更多相关文章

随机推荐

热门专题