【转】Deadlock的一些总结(死锁分析及处理)
1.1.1 摘要
在系统设计过程中,系统的稳定性、响应速度和读写速度至关重要,就像12306.cn那样,当然我们可以通过提高系统并发能力来提高系统性能总体性能,但在并发作用下也会出现一些问题,例如死锁。
今天的博文将着重介绍死锁的原因和解决方法。
1.1.2 正文
定义:
死锁是由于并发进程只能按互斥方式访问临界资源等多种因素引起的,并且是一种与执行时间和速度密切相关的错误现象。
死锁的定义:若在一个进程集合中,每一个进程都在等待一个永远不会发生的事件而形成一个永久的阻塞状态,这种阻塞状态就是死锁。
死锁产生的必要条件:
1.互斥mutual exclusion):系统存在着临界资源;
2.占有并等待(hold and wait):已经得到某些资源的进程还可以申请其他新资源;
3.不可剥夺(no preemption):已经分配的资源在其宿主没有释放之前不允许被剥夺;
4.循环等待(circular waiting):系统中存在多个(大于2个)进程形成的封闭的进程链,链中的每个进程都在等待它的下一个进程所占有的资源;
图1死锁产生条件
我们知道哲学家就餐问题是在计算机科学中的一个经典问题(并发和死锁),用来演示在并行计算中多线程同步(Synchronization)时产生的问题,其中一个问题就是存在死锁风险。
图2哲学家就餐问题(图片源于wiki)
而对应到数据库中,当两个或多个任务中,如果每个任务锁定了其他任务试图锁定的资源,此时会造成这些任务阻塞,从而出现死锁;这些资源可能是:单行(RID,堆中的单行)、索引中的键(KEY,行锁)、页(PAG,8KB)、区结构(EXT,连续的8页)、堆或B树(HOBT) 、表(TAB,包括数据和索引)、文件(File,数据库文件)、应用程序专用资源(APP)、元数据(METADATA)、分配单元(Allocation_Unit)、整个数据库(DB)。
假设我们定义两个进程P1和P2,它们分别拥有资源R2和R1,但P1需要额外的资源R1恰好P2也需要R2资源,而且它们都不释放自己拥有的资源,这时资源和进程之间形成了一个环从而形成死锁。
图3死锁(图片源于wiki)
SQL Server中死锁排查:
1.使用SQL Server中系统存储过程sp_who和sp_lock,可以查看当前数据库中阻塞进程的情况;
首先我们在数据库中创建两个表Who和Lock分别用来存放阻塞和锁定的数据,SQL代码如下:
CREATE Table #Who(spid int,
ecid int,
status nvarchar(50),
loginname nvarchar(50),
hostname nvarchar(50),
blk int,
dbname nvarchar(50),
cmd nvarchar(50),
request_ID int); CREATE Table #Lock(spid int,
dpid int,
objid int,
indld int,
[Type] nvarchar(20),
Resource nvarchar(50),
Mode nvarchar(10),
Status nvarchar(10)
);
接着我们要把阻塞和锁定数据分别存放到Who和Lock表中,SQL代码如下:
INSERT INTO #Who
-- Diagnose which process causing the block.
EXEC sp_who active
INSERT INTO #Lock
-- Check which source has been locked.
EXEC sp_lock DECLARE @DBName nvarchar(20);
SET @DBName='LMS_RFD' SELECT Who.* FROM #Who who WHERE dbname=@DBName
SELECT Lock.* FROM #Lock lock
JOIN #Who who
ON Who.spid=Lock.spid
AND dbname=@DBName;
DECLARE crsr Cursor FOR
SELECT blk FROM #Who who WHERE dbname=@DBName AND blk<>0;
DECLARE @blk int;
open crsr;
FETCH NEXT FROM crsr INTO @blk;
WHILE (@@FETCH_STATUS = 0)
BEGIN;
dbcc inputbuffer(@blk);
FETCH NEXT FROM crsr INTO @blk;
END;
close crsr;
DEALLOCATE crsr; -- Get the locked source.
SELECT Who.spid,hostname,objid,[type],mode,object_name(objid) as objName FROM #Lock lock
JOIN #Who who
ON Who.spid=Lock.spid
AND dbname=@DBName
WHERE objid<>0;
2.使用SQL Server Profiler分析死锁,将Deadlock graph事件类添加到跟踪。此事件类使用死锁涉及到的进程和对象的XML数据填充跟踪中的TextData数据列。SQL Server 事件探查器可以将XML文档提取到死锁XML(.xdl) 文件中,以后可在SQL Server Management Studio中查看该文件(下面将给出详细介绍)。
死锁的示例和解决方法
首先我们在数据库tempdb中创建两个表DlTable1和DlTable2,它们都包含两个字段分别是Id和Name,接着我们往这两个表中插入数据,具体SQL代码如下:
-- Note we use tempdb for testing.
USE tempdb -- Create datatable in tempdb.
CREATE TABLE DlTable1 (DL1Id INT, DL1Name VARCHAR(20))
CREATE TABLE DlTable2 (DL2Id INT, DL2Name VARCHAR(20)) -- Insert multiple data into DlTable1 and DlTable2 in SQL Server 2005.
INSERT INTO DlTable1
SELECT 1, 'Deadlock'
UNION ALL
SELECT 2, 'JKhuang'
UNION ALL
SELECT 3, 'Test'
GO INSERT INTO DlTable2
SELECT 1, 'Deadlock'
UNION ALL
SELECT 2, 'JacksonHuang'
UNION ALL
SELECT 3, 'Test'
GO -- Insert multiple data into DlTable1 and DlTable2 in SQL Server 2008.
INSERT INTO DlTable1 VALUES (1, 'Deadlock'), (2, 'JKhuang'), (3, 'Test')
INSERT INTO DlTable2 VALUES (1, 'Deadlock'), (2, 'JacksonHuang'), (3, 'Test')
现在我们执行以上SQL代码成功创建了DlTable1和DlTable2并且插入了数据。
图4插入数据到表中
接着我们打开两个查询窗口分别创建两个独立的事务A和B如下:
-- In query window 1.
USE tempdb
GO -- Create transaction A.
BEGIN TRANSACTION
UPDATE DlTable1 SET DL1Name = 'Uplock' WHERE DL1Id = 2
-- Delay 23 second.
WAITFOR DELAY '00:00:23'
UPDATE DlTable2 SET DL2Name = 'Downlock' WHERE DL2Id = 2
ROLLBACK TRANSACTION -- In query window 2.
USE tempdb
GO -- Create transaction B.
BEGIN TRANSACTION
UPDATE DlTable2 SET DL2Name = 'Downlock' WHERE DL2Id = 2
-- Delay 23 second.
WAITFOR DELAY '00:00:23'
UPDATE DlTable1 SET DL1Name = 'Uplock' WHERE DL1Id = 2
ROLLBACK TRANSACTION
上面我们定义了两个独立的事务A和B,为了测试死锁这里我们使用WAITFOR DELAY使事务执行产生延时。
图5事务执行结果
运行完上面的两个查询后,我们发现其中一个事务执行失败,系统提示该进程和另一个进程发生死锁,而另一个事务执行成功,这是由于SQL Server自动选择一个事务作为死锁牺牲品。
既然发生了死锁,那么究竟是哪个资源被锁定了呢?现在我们通过死锁排除方法一来查看具体是哪个资源被锁定。
现在我们重新执行事务A和B,接着使用死锁排除方法一查看更新事务具体使用到的锁。
图6更新操作使用的锁
通过上图我们知道,首先事务A给表DlTable1下了行排他锁(RID X),然后在下页意向更新锁(PAG IX),最后给整个DlTable1表下了表意向更新锁(TAB IX);事务B的使用的锁也是一样的。
事务A拥有DL1Id = 2行排他锁(RID X)同时去请求DL2Id = 2的行排他锁(RID X),但我们知道事务B已经拥有DL2Id = 2的行排他锁(RID X),而且去请求DL1Id = 2行排他锁(RID X),由于行排他锁和行排他锁是冲突的所以导致死锁。
图7锁的兼容性
前面我们介绍了使用sp_lock查看更新操作时SQL Server使用的锁(行锁、页锁和表锁),现在我们在更新操作后查询操作,SQL代码如下:
现在我们使用SQL Server Profiler分析死锁
在本节中,我们将看到如何使用SQL Server Profiler来捕获死锁跟踪。
1.启动SQL Server事件探查器和连接所需的SQL Server实例
2.创建一个新的跟踪
3.在事件选择页中,取消默认事件选项,我们选择“死锁图形”事件、 “锁定:死锁”和“锁定:死锁链”如下图所示:
图8事件选择设置
4. 启动一个新的跟踪
5.在SSMS中,开两个查询窗口#1和#2,我们重新执行前面两个事务
6.事务执行结束,一个执行成为,另一个发生死锁错误
7.我们打开事件探查器,如下图所示:
图9 Deadlock graph
8.选择Deadlock graph,我们可以直观查看到两个事务之间发生死锁的原因
图10 事务进程A
上图的椭圆形有一个叉,表示事务A被SQL Server选择为死锁牺牲品,如果我们把鼠标指针移动到椭圆中会出现一个提示。
图11 事务进程B
上图的椭圆形表示进程执行成功,我们把鼠标指针移动到椭圆中也会出现一个提示。
中间的两个矩形框称为资源节点,它们代表的数据库对象,如表,行或索引。由于事务A和B在拥有各自资源时试图获得对方资源的一个独占锁,使得进程相互等待对方释放资源从而导致死锁。
死锁避免:
现在让我们回顾一下上了死锁的四个必要条件:互斥,占有并等待,不可剥夺和循环等待;我们只需破坏其中的一个或多个条件就可以避免死锁发生,方法如下:
(1).按同一顺序访问对象。(注:避免出现循环,降低了进程的并发执行能力)
(2).避免事务中的用户交互。(注:减少持有资源的时间,减少竞争)
(3).保持事务简短并处于一个批处理中。(注:同(2),减少持有资源的时间)
(4).使用较低的隔离级别。(注:使用较低的隔离级别(例如已提交读)比使用较高的隔离级别(例如可序列化)持有共享锁的时间更短,减少竞争)
(5).使用基于行版本控制的隔离级别:2005中支持快照事务隔离和指定READ_COMMITTED隔离级别的事务使用行版本控制,可以将读与写操作之间发生的死锁几率降至最低:
SET ALLOW_SNAPSHOT_ISOLATION ON --事务可以指定 SNAPSHOT 事务隔离级别;
SET READ_COMMITTED_SNAPSHOT ON --指定 READ_COMMITTED 隔离级别的事务将使用行版本控制而不是锁定。默认情况下(没有开启此选项,没有加with nolock提示),SELECT语句会对请求的资源加S锁(共享锁);而开启了此选项后,SELECT不会对请求的资源加S锁。
注意:设置 READ_COMMITTED_SNAPSHOT选项时,数据库中只允许存在执行 ALTER DATABASE命令的连接。在 ALTER DATABASE完成之前,数据库中决不能有其他打开的连接。数据库不必一定要处于单用户模式中。
在数据库中设置READ COMMITTED SNAPSHOT 或 ALLOW SNAPSHOT ISOLATIONON ON时,查询数据时不再使用请求共享锁,如果请求的行正被锁定(例如正在被更新),SQL_Server会从行版本存储区返回最早的关于该行的记录(SQL_server会在更新时将之前的行数据在tempdb库中形成一个链接列表。(详细请点这里和这里)
ALTER Database DATABASENAME SET READ_COMMITTED_SNAPSHOT ON
(6).使用绑定连接。(注:绑定会话有利于在同一台服务器上的多个会话之间协调操作。绑定会话允许一个或多个会话共享相同的事务和锁(但每个回话保留其自己的事务隔离级别),并可以使用同一数据,而不会有锁冲突。可以从同一个应用程序内的多个会话中创建绑定会话,也可以从包含不同会话的多个应用程序中创建绑定会话。在一个会话中开启事务(begin tran)后,调用exec sp_getbindtoken @Token out;来取得Token,然后传入另一个会话并执行EXEC sp_bindsession @Token来进行绑定(最后的示例中演示了绑定连接)。
解决死锁
这里有几个方法可以帮助我们解决死锁问题。
优化查询
我们在写查询语句时,要考虑一下查询是否Join了没有必要的表?是否返回数据太多(太多的列或行)?查询是否执行表扫描?是否能通过调整查询次序来避免死锁?是否应该使用Join的地方使用了Left Join?Not In语句是否考虑周到?
我们在写查询语句可以根据以上准则来考虑查询是否应该做出优化。
慎用With(NoLock)
默认情况下SELECT语句会对查询到的资源加S锁(共享锁),由于S锁与X锁(排他锁)不兼容,在加上With(NoLock)后,SELECT不对查询到的资源加锁(或者加Sch-S锁,Sch-S锁可以与任何锁兼容);从而使得查询语句可以更好和其他语句并发执行,适用于表数据更新不频繁的情况。
也许有些人会提出质疑With(NoLock),可能会导致脏读,首先我们要考虑查询的表是否频繁进行更新操作,而且是否要读回来的数据会被修改,所以衡量是否使用With(NoLock)还是要根据具体实际出发。
优化索引
是否有任何缺失或多余的索引?是否有任何重复的索引?
处理死锁
我们不能时刻都观察死锁的发生,但我们可以通过日志来记录系统发生的死锁,我们可以把系统的死锁错误写入到表中,从而方便分析死锁原因。
缓存
也许我们正在执行许多相同的查询非常频繁,如果我们把这些频繁的操作都放到Cache中,执行查询的次数将减少发生死锁的机会。我们可以在数据库的临时表或表,或内存,或磁盘上应用Cache。
1.1.3 总结
本文主要介绍了什么是死锁、怎样导致了死锁和死锁的解决方法,正如我们可以看到,由于导致死锁的原因很多,所以死锁的解决方法不尽相同,首先我们必须明确死锁发生的地方,例如进程为了争夺哪类资源导致死锁的,这时我们可以考虑使用Profiler工具进行跟踪查询;在清楚死锁发生的地方后,我们要检查一下查询是否考虑周到了,可以根据以上的方法优化查询语句。
参考
http://msdn.microsoft.com/zh-cn/library/ms174313.aspx
http://www.cnblogs.com/happyhippy/
【转】Deadlock的一些总结(死锁分析及处理)的更多相关文章
- 一次 MySQL 线上死锁分析实战
关键词:MySQL Index Merge 前言 MySQL 的锁机制相信大家在学习 MySQL 的时候都有简单的了解过,那既然有锁就必定绕不开死锁这个问题.其实 MySQL 在大部分场景下是不会存在 ...
- 线上BUG:MySQL死锁分析实战
原文链接:线上BUG:MySQL死锁分析实战 1 线上告警 我们不需要关注截图中得其他信息,只要能看到打印得org.springframework.dao.DeadlockLoserDataAcces ...
- golang 中 channel 的详细使用、使用注意事项及死锁分析
目录 1.什么是 channel,介绍管道 2.channel 的基本使用 3.channel 的使用场景 4.使用 channel的注意事项及死锁分析 什么是 channel 管道 它是一个数据管道 ...
- 14.5.5.1 An InnoDB Deadlock Example 一个InnoDB 死锁实例
14.5.5.1 An InnoDB Deadlock Example 一个InnoDB 死锁实例 下面的例子演示了一个错误可以发生当一个lock 请求会导致一个死锁,例子设计2个客户端,A和B: J ...
- 14.3.5.2 Deadlock Detection and Rollback 死锁检测和回滚:
14.3.5.2 Deadlock Detection and Rollback 死锁检测和回滚: InnoDB 自动检查四艘,回滚一个事务或者事务来打破死锁. InnoDB 试图选择小的事务来回滚, ...
- 查看w3wp进程占用的内存及.NET内存泄露,死锁分析
一 基础知识 在分析之前,先上一张图: 从上面可以看到,这个w3wp进程占用了376M内存,启动了54个线程. 在使用windbg查看之前,看到的进程含有 *32 字样,意思是在64位机器上已32位方 ...
- [置顶] 分析Java死锁:分析jstack日志
本文中我将展示一段垃圾代码,这段代码会产生死锁,这样围绕这段代码重点展示三种不同的方法来分析线程日志,从而得知什么地方有问题. 下面的讨论将用到两个类 Account 和 DeadlockDemo c ...
- <转>一个最不可思议的MySQL死锁分析
1 死锁问题背景 1 1.1 一个不可思议的死锁 1 1.1.1 初步分析 3 1.2 如何阅读死锁日志 3 2 死锁原因深入剖析 4 2.1 Delete操作的加锁逻辑 4 2.2 死锁预防策略 5 ...
- 线程池ThreadPool及Task调度死锁分析
近1年,偶尔发生应用系统启动时某些操作超时的问题,特别在使用4核心Surface以后.笔记本和台式机比较少遇到,服务器则基本上没有遇到过. 这些年,我写的应用都有一个习惯,就是启动时异步做很多准备工作 ...
随机推荐
- 【随笔】MQTT简介
我们知道,将用户使用的设备称为客户端,将提供给用户信息的端口称为服务器端.两个端口之间可以通过多种通信协议进行交互,比如HTTP(同步)或者基于消息传递的异步. HTTP是一种同步无状态的协议,不支持 ...
- psql-08表:触发器
语句级触发器与行为触发器 //创建一个对student表的操作记录表 create table log( update_time timestamp, //操作时间 db_user varchar(4 ...
- 用 TWebBrowser 查找网页上的按钮,编辑框,
Form1.wb1.Navigate(Aurl); <table> <tr> <td style="text-align:right;">< ...
- [资料分享]Python视频教程(基础篇、进阶篇、项目篇)
Python是一种开放源代码的脚本编程语言,这种脚本语言特别强调开发速度和代码的清晰程度.它可以用来开发各种程序,从简单的脚本任务到复杂的.面向对象的应用程序都有大显身手的地方.Python还被当作一 ...
- Android调用默认浏览器打开指定Url
业务员有需求要将一个wap站在手机上以App的形式打开,还不要嵌套WebView,只能以浏览器打开.查了点资料,就有了下面这货. package com.gzz.whyinzi; import and ...
- js 无缝滚动效果学习
<!DOCTYPE html> <html> <head> <title>无缝滚动测试</title> <meta http-equi ...
- Git的简单使用教程
Git是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目. GitHub则可以托管各种git库,并提供一个web界面,但与其它像 SourceForge或Google Code ...
- 实现携程X分钟前有人预定功能
实现携程X分钟前有人预定功能 原理:利用cookie与计时器两部分: 首先,进入页面,x会被随机数赋值,赋值后x会一分钟加1,直到加到60,再从1开始累加. 页面是否相同是根据页面的url后的id值判 ...
- 运用ASP.NET实现
calation.cs using System; using System.Collections.Generic; using System.Linq; using System.Web; /// ...
- mysql错误汇总
1,mysql报Fatal error encountered during command execution的解决办法 连接字符串里加上 Allow User Variables=True 解决. ...