转载:http://www.cnblogs.com/fygh/archive/2012/01/17/2324926.html

查看语句运行时间异常的原因(SQLServer)

 

经常有开发同事反映如下情况:我有一条语句或者一个JOB昨天跑半个小时就完成了,今天怎么跑了两个小时还没有完成?

是不是数据库出现问题了?

数据库语句运行时间异常,其实是一个比较复杂的情况,因为数据是不断变动的,今天好好的一条语句,有可能明天运行就

不在预计的时间内了,这个场景是没办法完全重溯的,即便有当时的备份数据,但是当时的服务器压力是没有办法知道和营造

的;但是好在现在不是要调查昨天语句跑时间异常的原因,而是要找到现在语句运行异常的原因,现在的情况还正在进行着呢,

所以我们可以根据语句目前的情况,初步来排查一下;

其实要考虑的问题比较多:

1. 索引是否正常(索引是否损坏、有没有人删除索引等);

2. 统计信息是否过时;

3. 语句执行计划是否发生偏移(和索引、统计信息以及数据量都有关系);

4. 语句是否有bug;

5. 是否发生的阻塞;

6. 系统资源是否遇到瓶颈;

.........

这么多的情况都考虑的话我们很难下手,一般解决这个问题我们都需要采用比较快的方式来做排查,以下方法主要针对5和6两

个方面进行,因为这两个方面是最常见的情况。

我们来简单模拟一下排查过程:

1. 创建测试表和数据

  1. USE [master]

  2. GO
  3.  
  4. /****** Object: Table [dbo].[a] Script Date: 01/17/2012 16:46:34 ******/

  5. SET ANSI_NULLS ON

  6. GO
  7.  
  8. SET QUOTED_IDENTIFIER ON

  9. GO
  10.  
  11. SET ANSI_PADDING ON

  12. GO
  13.  
  14. CREATE TABLE [dbo].[a](

  15. [id] [int] IDENTITY(1,1) NOT NULL,

  16. [name] [varchar](100) NULL

  17. ) ON [PRIMARY]
  18.  
  19. GO
  20.  
  21. SET ANSI_PADDING OFF

  22. GO
  23.  
  24. insert into a values('aa'),('bb'),('cc')

2. 制造阻塞:开两个session,分别运行下面的语句

  1. --Session 1
    use master

  2. go

  3. begin tran

  4. update A set name='abc' where id=2
  5.  
  6. --rollback
  1.  
  2. --Session 2
    select * from a

因为Session1 的Update语句没有能够提交,所以此时Session2 过程会被阻塞

3. 分析排查:

我们首先需要查询下此时数据库中是否存在阻塞:

  1. --Blocked
    select * from sys.sysprocesses with(nolock) where blocked<>0


 我们看到了阻塞的记录,53阻塞了56,被阻塞的资源是:dbid 1 file 1 page 307;

接下来我们需要知道阻塞和被阻塞的是什么语句,有两种方式:

a. dbcc inputbuffer

b. sys.dm_exec_sql_text

方法一与方法二相比:

优点:方法一能显示非活动session的语句,方法二只能查活动的session(通过sp_who2 active 能显示是否活动);

缺点:方法一只能一个一个查询,方法二可以多个一起查询;

方法一:

  1. --No1:
    dbcc inputbuffer(53)

  2. go

  3. dbcc inputbuffer(56)

方法二:

  1. --No2:
    SELECT

  2. S.session_id, R.blocking_session_id,

  3. S.host_name, S.login_name,

  4. databaseName=DB_NAME(R.database_id),R.command, R.status,

  5. current_execute_sql = SUBSTRING(T.text,

  6. R.statement_start_offset / 2 + 1,

  7. CASE

  8. WHEN statement_end_offset = -1 THEN LEN(T.text)

  9. ELSE (R.statement_end_offset - statement_start_offset) / 2+1

  10. END),

  11. S.program_name,

  12. S.status,

  13. S.cpu_time, memory_usage_kb = S.memory_usage * 8, S.reads, S.writes,

  14. S.transaction_isolation_level,

  15. C.connect_time, C.last_read, C.last_write,

  16. C.net_transport, C.client_net_address, C.client_tcp_port, C.local_tcp_port,

  17. R.start_time,

  18. R.wait_time, R.wait_type, R.last_wait_type, R.wait_resource,

  19. R.open_transaction_count, R.transaction_id
  20.  
  21. FROM sys.dm_exec_sessions S

  22. LEFT JOIN sys.dm_exec_connections C

  23. ON S.session_id = C.session_id

  24. LEFT JOIN sys.dm_exec_requests R

  25. ON S.session_id = R.session_id

  26. AND C.connection_id = R.connection_id

  27. OUTER APPLY sys.dm_exec_sql_text(R.sql_handle) T

  28. WHERE S.is_user_process = 1 -- 如果不限制此条件,则查询所有进程(系统和用户进程)
    and s.session_id in(53,56)

我们看到方法一两条语句都能查出来,而方法二只能查出一个语句;

到这里,我们已经能判断语句运行慢的原因是被阻塞了,我们再来查查阻塞的原因是什么,可以通过以下语句查看:

  1. select request_session_id,resource_type,db_name(resource_database_id) as DBName,resource_description,

  2. request_mode,request_type,request_status from sys.dm_tran_locks where request_session_id in(56,53)

  3. order by request_session_id

可以看到,56处于WAIT状态,它在等待获取1:307:1 上的一个共享锁,但是1:307:1上被53的一个排他锁占据了(GRANT代表

已获得资源,正在运行),因此56必须等待53上的排他锁释放后才能继续运行;于是我们转而调查53排他锁没有释放的原因;可能是

53需要的其他资源被其他进程占有了,在等待其他进程释放锁;也可能是因为Update语句更新的数据量过多,需要的时间比较长,不

能够及时的释放锁;还有就是我们现在的情况,没有提交事物了(语句中可以直接看到);阻塞的排查方法都是类似的。

如果语句并没有被其他语句blocked呢? 那我们需要再进一步查找的原因就是Wait了,前面已经有wait的相关查询,下面我们来查下

更具体的信息:

  1. -- wait & lock
    select lo.request_session_id as [Session],

  2. DB_NAME(lo.resource_database_id) as Dbname,

  3. lo.resource_type as [Type],

  4. lo.resource_description,

  5. lo.request_mode,

  6. lo.request_owner_type,

  7. lo.request_status,

  8. case when lo.resource_type='OBJECT' then OBJECT_NAME(lo.resource_associated_entity_id)

  9. when lo.resource_associated_entity_id IS NULL OR lo.resource_associated_entity_id=0

  10. then NULL

  11. else OBJECT_NAME(p.object_id)

  12. end as Associated_Entity,

  13. wt.blocking_session_id,wt.resource_description

  14. from

  15. sys.dm_tran_locks lo with(nolock)

  16. left join sys.partitions p with(nolock)

  17. on lo.resource_associated_entity_id=p.partition_id

  18. left join sys.dm_os_waiting_tasks wt with(nolock)

  19. on lo.lock_owner_address=wt.resource_address

  20. where lo.request_session_id>50

  21. and lo.request_session_id=56

  22. order by [Session] ,[TYPE]

上面可以看到,56在获取共享资源1:307:1时,遇到了等待,当然这里的等待还是被53阻塞了,但是等待会有多种原因的等待,我们查

一下当前的等待信息:

  1. --current wait info
    select wait_type,COUNT(0) as num_waiting_tasks,

  2. SUM(wait_duration_ms) as total_wait_time_ms

  3. from sys.dm_os_waiting_tasks with(nolock)

  4. where session_id>50

  5. group by wait_type

  6. order by wait_type

这里可以看到是锁等待(Wait_Type),还有很多资源类型的等待,值的重点关注的有:
  Memory:CMEMTHREAD ,RESOURCE_SEMAPHORE
     CMEMTHREAD:
       说明和原因:计划缓存出现问题的标志(大量计划加入或者移出);
       解决:     使用参数化的查询或者设置数据库强制参数化(forced parameterization)

RESOURCE_SEMAPHORE:
       说明和原因:内存密集型查询无法获得请求的内存;其他进程消耗了太多的内存;
       解决:     为数据库添加合适的索引或者增加内存

IO:IO_COMPLETION,ASYNC_IO_COMPLETION,WRITELOG,PAGEIOLATCH_*

CPU: CXPACKET,SOS_SCHEDULER_YIELD
       CXPACKET:
          说明和原因:并行处理等待类型,并行同步等待;
          解决:     可以通过修改并行度的值(或者禁用)解决;
       SOS_SCHEDULER_YIELD:
          说明和原因:任务执行到时间片尾,让出调度器给其他任务运行;
          解决:     需要处理能力更好的CPU
 
  Network:ASYNC_NETWORK_IO,DBMIRROR_SEND
       ASYNC_NETWORK_IO: 网卡带宽饱和或者客户端不能及时把结果取走;
       DBMIRROR_SEND:  网络带宽不足以支持镜像事务量或者镜像数据库超出限额;

锁阻塞:LCK_*

我们可以统计下,我们数据库最多的20种等待类型:

  1. --total wait info
    select top 20 wait_type,SUM(waiting_tasks_count) waiting_tasks_count,

  2. SUM(wait_time_ms)as total_wait_time_ms,

  3. SUM(signal_wait_time_ms) as total_signal_wait_time_ms

  4. from sys.dm_os_wait_stats with(nolock)

  5. where wait_type not in

  6. --system wait type
    ('LAZYWRITER_SLEEP','REQUEST_FOR_DEADLOCK_SEARCH','SQLTRACE_BUFFER_FLUSH',

  7. 'XE_TIMER_EVENT','FT_IFTS_SCHEDULER_IDLE_WAIT','LOGMGR_QUEUE','CHECKPOINT_QUEUE',

  8. 'SLEEP_TASK','BROKER_IO_FLUSH','BROKER_TASK_STOP','BROKER_TO_FLUSH','BROKER_EVENTHANDLER')

  9. group by wait_type

  10. order by total_wait_time_ms desc

通过这个我们可以从中看出DB等待主要集中在哪些方面,如果是在CPU、IO、Memory、Lock等上面等待时间很长,说明我们

的数据库需要做某些方面的优化了。

以上就是从阻塞和等待方面,对运行时间异常的语句做初步排查的过程,欢迎大家拍砖。

查看语句运行时间异常的原因(SQLServer)的更多相关文章

  1. MSSQL优化之——查看语句执行情况

    MSSQL优化之——查看语句执行情况 在写SQL语句时,必须知道语句的执行情况才能对此作出优化.了解SQL语句的执行情况是每个写程序的人必不可少缺的能力.下面是对查询语句执行情况的方法介绍. 一.设置 ...

  2. JDBC 异常特殊原因 (数据库只读解决办法)

    JDBC 异常特殊原因   有时候并不是因为程序写的有问题  ,是因为  数据库只读 在sqlserver2005中附加数据库时,附加的数据库会变成只读的,只能进行查询操作. 解决方法: 1 打开Sq ...

  3. 2019.12.11 java程序中几种常见的异常以及出现此异常的原因

    1.java.lang.NullpointerException(空指针异常) 原因:这个异常经常遇到,异常的原因是程序中有空指针,即程序中调用了未经初始化的对象或者是不存在的对象. 经常出现在创建对 ...

  4. 监控SQL:执行表中所有sql语句、记录每个语句运行时间(3)

    原文:监控SQL:执行表中所有sql语句.记录每个语句运行时间(3) 通过执行一个 带参数的存储过程  exec  OpreateTB('OpreateUser','IsRun')  更新表的数据 表 ...

  5. NIOS II CPU复位异常的原因及解决方案

    NIOS II CPU复位异常的原因及解决方案   近期在用nios ii做项目时,发现一个奇怪的现象,在NIOS II EDS软件中编写好的代码,烧写到芯片中,第一次能够正常运行,但是当我按下板卡上 ...

  6. 利用 SQL Monitor 查看语句运行状态步骤

    利用 SQL Monitor 查看语句运行状态步骤 1.确定语句被 SQL Monitor 监控 SQL> SELECT * FROM GV$SQL_MONITOR WHERE sql_id=' ...

  7. Ubuntu 使用top/free查看内存占用大的原因

    Ubuntu 使用top/free查看内存占用大的原因     linux/ubuntu下free/top查看内存占用大的原因 使用free/top查看内存占用的时候,吓了一大跳,机器4GB的内存,显 ...

  8. .net Monitor产生SynchronizationLockException异常的原因

    有时在使用Monitor进行并发同步编程时,会产生SynchronizationLockException异常,抛出的异常内容是"Object synchronization method ...

  9. linux重启查看日志及历史记录 查询原因

    linux重启查看日志及历史记录 查询原因 linux系统文件通常在/var/log中下面是对下面常出现的文件进行解释 /var/log/message ----------------------- ...

随机推荐

  1. 进程通信---FIFO

    管道没有名字,所以只能在具有血缘关系的进程间使用,而在无名管道发展出来的有名管道FIFO,则有路径名与之相关联,以一种特殊设备文件形式存在于文件系统中,从而允许无亲缘关系的进程访问FIFO,下面看FI ...

  2. C++调用GDAL库读取并输出tif文件,并计算斑块面积输出景观指数:CSD

    部分源码选自GDAL库的官方网址:www.gdal.org,其余的代码为笔者自己编写. // readfile.cpp : 定义控制台应用程序的入口点. // /* part of the codes ...

  3. mysql安装过程中出现的错误问题解决方案

    最近在学Django,因为与数据库相关,所以我下载并安装了MySQL,安装的过程真的是一把辛酸泪啊.安装过后,查看是否可以使用,出现了cann't connect to mysql server这个错 ...

  4. Android:WebView中对图片注册上下文菜单

    前言 今天一朋友问我一个问题,就是如何在WebView控件中的图片增加上下文菜单,以便增加保存图片等功能.今天就给他简单做了一个演示Demo,现写下来,给有相同问题的朋友提供些许思路吧. 概要实现 其 ...

  5. JVM学习---JAVA内存

    一.JAVA运行时数据区域:JAVA中的运行时内存区域有的随着虚拟机进程的启动而存在,有的区域则是依赖用户线程的启动和结束而建立和销毁的.包括以下的几个区域. 图. JAVA虚拟机运行时数据区 1.程 ...

  6. python学习第六天

    一. 模块介绍1. 模块的定义:用一堆代码实现了某个功能的代码集合     包的定义:本质就是一个目录(必须导游一个_init_.py文件),是用来从逻辑上组织模块的.2. 需要多个函数才能完成(函数 ...

  7. 安装360后,visual studio 经常报各种莫名其妙的错误的解决方案

    安装360后,visual studio  经常报各种莫名其妙的错误,每次都要查找错误的解决方案 而且网上关于这个的好少,以后只要碰到了这种情况我就记录下吧 今天碰到的情况是打开WCF服务时出现   ...

  8. 在Web API中使用Swagger-UI开源组件(一个深坑的解决)

    介绍: Swagger-Ui是一个非常棒的Web API说明帮助页,具体详情可自行Google和百度. 官网:http://swagger.io/    GitHub地址:https://github ...

  9. c# this.location和e.X的区别

    this.location是窗口当前位置 e.X是具体事件的相对坐标 size是窗口尺寸宽和高

  10. 深入mysql_fetch_row()与mysql_fetch_array()的区别详解

    这两个函数,返回的都是一个数组,区别就是第一个函数返回的数组是只包含值,我们只能$row[0],$row[1],这样以数组下标来读取数据,而mysql_fetch_array()返回的数组既包含第一种 ...