昨天在工作中遇到一个情况,就是Development环境中的某台服务器上的某个数据库进入了Suspect状态。以前看书倒是知道说这个状态,不过实际工作当中从来没有遇到过。那么一些背景情况是这样的。

环境:Development

数据库产品:SQL Server 2008 R2

数据库业务类型:DataWare House

数据库恢复模式:Simple

备份情况:每天就一个备份

在Google上查询了相关资料加上自己对于这种情况已有的储备知识,首先我第一部先到SQL Server Log里面查找最近关于这个数据库的一些报错信息,定位到到底是为什么还有何时发生的?

从SQL Server Log我找到了这样一些日志记录。 原因是在6月13号这台服务器的SQL Server重启时在CHECKDB命令检查这个数据库时发现了Error。很可能就是这台服务器意外重启而导致了这个很可能是一致性检查不通过的问题。更糟糕的在后面。

这里有几个链接来自Microsoft的BOL。里面讲了上图提示的两个Error的cause和fix/resolution

https://support.microsoft.com/en-us/kb/2015753

https://technet.microsoft.com/zh-cn/library/ff713991(v=sql.105).aspx

https://support.microsoft.com/en-us/kb/2015741

这个时候应该是尽可能对该数据库运行DBCC CHECKDB来确定遇到一致性问题的页面数量(范围)。这个时候我需要先把数据库切换到EMERGENCY模式才可能访问数据库。

ALTER DATABASE [YourDatabase] SET EMERGENCY

然后我运行了DBCC checkdb来定位问题页面
DBCC checkdb([YourDatabase])

命令输出了下面的信息:

Msg 7987, Level 16, State 1, Line 1
System table pre-checks: Object ID 5 has chain linkage mismatch. (1:29885)->next = (1:28340), but (1:28340)->prev = (1:28339). Check statement terminated due to unrepairable error.
DBCC results for 'XXXX'.
CHECKDB found 0 allocation errors and 0 consistency errors in database 'XXXX'.

很明显可以看到某个数据库表对象两个页面的前后指向出了问题,没办法match上。感兴趣的你可以用DBCC PAGE打开上提到的几个页面去看下里面页头的内容。不过我觉得糟糕的是这个Object_ID = 5的信息。这意味着这个对象很可能是张系统表。我觉得它糟糕的原因是因为即便这时我做最坏的打算用DBCC CheckDB ([YourDatabase], REPAIR_ALLOW_DATA_LOSS)来解决这个问题,也还是不成,因为DBCC CHECKDB存在很多限制,并不是说所有的表都可以repair的,其中就包括system table。DBCC CHECKDB的作者在他的一篇博文中讲到了这点。因为系统表本身就是SQL Server用来存储用户表元数据的地方,一旦某张系统表出现问题而强制repair这种系统表不就是意味着要把有问题的页面删掉,而页面中涉及到的用户表也需要被删掉来保证一致性呢。这样的结果显然完全无法接受。不过即便如此,这样的答案还是令人沮丧的。因为这就是意味着除非恢复备份,否则这张系统表将无法得救。幸运的是,如果坏的是某些页面像GAM,SCAM,PFS这样的页面,那将是顶级灾难。必须完全恢复整个数据库。而至少现在我有个想法,就是利用SQL Server的PAGE RESTORE,只恢复特定的页面。这点我不晓得行不行得通,毕竟页面是某张系统表的。以后找个时间试下。

http://www.sqlskills.com/blogs/paul/checkdb-from-every-angle-can-checkdb-repair-everything/

这里还有作者讲的另外一篇关于corruption的文章:http://www.sqlskills.com/blogs/paul/corruption-demo-databases-and-scripts/

上面说了那么多,为了验证确实没办法repair一张系统表的页面,我也试了一下,确实不行。
ALTER DATABASE [YourDatabase] SET SINGLE_USER WITH ROLLBACK IMMEDIATE
DBCC CheckDB ([YourDatabase], REPAIR_ALLOW_DATA_LOSS)
ALTER DATABASE [YourDatabase] SET MULTI_USER

下面是输出信息:

Nonqualified transactions are being rolled back. Estimated rollback completion: 100%.
Nonqualified transactions are being rolled back. Estimated rollback completion: 100%.
Nonqualified transactions are being rolled back. Estimated rollback completion: 100%.
Nonqualified transactions are being rolled back. Estimated rollback completion: 100%.
Msg 7987, Level 16, State 1, Line 3
System table pre-checks: Object ID 5 has chain linkage mismatch. (1:29885)->next = (1:28340), but (1:28340)->prev = (1:28339). Check statement terminated due to unrepairable error.
DBCC results for 'XXXX'.
CHECKDB found 0 allocation errors and 0 consistency errors in database 'XXXX'.

万一说备份都没有,或者备份实在是太旧了,而且上面我提到的那个PAGE RESTORE的办法又行不通,那就没办法了,只剩一个办法:

因为这个时候数据库已经进入正常模式,可以被访问。我们只有尽可能去挽救数据。把可以访问的数据表里面的数据都导出到另外一个库。

至于这里,因为是开发环境,我直接restore了整个库。


RESTORE FILELISTONLY
FROM DISK = '\\XXXXXX\MyDB\MyDB_NB_FULL_20150624000352.BAK'

RESTORE DATABASE MyDB
FROM DISK = '\\XXXXXX\MyDB\MyDB_NB_FULL_20150624000352.BAK'
WITH MOVE 'MyDBPrimary' TO 'D:\MSSQL\Data\MyDBPrimary.mdf',
MOVE 'MyDBLog01' TO 'O:\MSSQL\Log\MyDBLog01.ldf',
MOVE 'MyDBData24' TO 'O:\Data3\MSSQL\Data\MyDBData24.ndf',
MOVE 'MyDBData23' TO 'O:\Data2\MSSQL\Data\MyDBData23.ndf',
MOVE 'MyDBData22' TO 'O:\Data1\MSSQL\Data\MyDBData22.ndf',
MOVE 'MyDBData21' TO 'O:\MSSQL\Data\MyDBData21.ndf',
MOVE 'MyDBData20' TO 'H:\Data3\MSSQL\Data\MyDBData20.ndf',
MOVE 'MyDBData19' TO 'H:\Data2\MSSQL\Data\MyDBData19.ndf',
MOVE 'MyDBData18' TO 'H:\Data1\MSSQL\Data\MyDBData18.ndf',
MOVE 'MyDBData17' TO 'H:\MSSQL\Data\MyDBData17.ndf',
MOVE 'MyDBData16' TO 'D:\Data3\MSSQL\Data\MyDBData16.ndf',
MOVE 'MyDBData15' TO 'D:\Data2\MSSQL\Data\MyDBData15.ndf',
MOVE 'MyDBData14' TO 'D:\Data1\MSSQL\Data\MyDBData14.ndf',
MOVE 'MyDBData13' TO 'D:\MSSQL\Data\MyDBData13.ndf',
MOVE 'MyDBData12' TO 'O:\Data3\MSSQL\Data\MyDBData12.ndf',
MOVE 'MyDBData11' TO 'O:\Data2\MSSQL\Data\MyDBData11.ndf',
MOVE 'MyDBData10' TO 'O:\Data1\MSSQL\Data\MyDBData10.ndf',
MOVE 'MyDBData09' TO 'O:\MSSQL\Data\MyDBData09.ndf',
MOVE 'MyDBData08' TO 'H:\Data3\MSSQL\Data\MyDBData08.ndf',
MOVE 'MyDBData07' TO 'H:\Data2\MSSQL\Data\MyDBData07.ndf',
MOVE 'MyDBData06' TO 'H:\Data1\MSSQL\Data\MyDBData06.ndf',
MOVE 'MyDBData05' TO 'H:\MSSQL\Data\MyDBData05.ndf',
MOVE 'MyDBData04' TO 'D:\Data3\MSSQL\Data\MyDBData04.ndf',
MOVE 'MyDBData03' TO 'D:\Data2\MSSQL\Data\MyDBData03.ndf',
MOVE 'MyDBData02' TO 'D:\Data1\MSSQL\Data\MyDBData02.ndf',
MOVE 'MyDBData01' TO 'D:\MSSQL\Data\MyDBData01.ndf', REPLACE, STATS = 10; Restore完记得DBCC CHECKDB(MyDB)

Database Corruption ->> Fix Database In Suspect State的更多相关文章

  1. Avoiding PostgreSQL database corruption

    TL;DR: Don't ever set fsync=off, don't kill -9 the postmaster then deletepostmaster.pid, don't run P ...

  2. Oracle® Database Patch 19121551 - Database Patch Set Update 11.2.0.4.4 (Includes CPUOct2014) - 傲游云浏览

    Skip Headers Oracle® Database Patch 19121551 - Database Patch Set Update 11.2.0.4.4 (Includes CPUOct ...

  3. Azure SQL Database (19) Stretch Database 概览

    <Windows Azure Platform 系列文章目录>  Azure SQL Database (19) Stretch Database 概览      Azure SQL Da ...

  4. 使用duplicate target database ... from active database复制数据库

    使用duplicate target database ... from active database复制数据库 source db:ora11auxiliary db:dupdb 1.修改监听文件 ...

  5. Oracle Database 12c Using duplicate standby database from active database Created Active DataGuard

    primary database db_name=zwc, db_unique_name=zwc standby database db_name=zwc, db_unique_name=standb ...

  6. Teradata Delete Database and Drop Database

    DELETE DATABASE and DELETE USER statements delete all data tables, views, and macros from a database ...

  7. Cannot connect to database because the database client

    问题描述: arcgis server10.1  arcgis sde10出现下面问题 Cannot connect to  database because the database client ...

  8. What is the difference between database table and database view?

    The database table has a physical existence in the database. A view is a virtual table, that is one ...

  9. Database Sharding Challenges DATABASE SHARDING

    w分布式查询.数据聚合.跨碎片join是可且应避免的.自增主键管理.基于-会话/事务/语句-选择碎片.通过-主键/模块/碎片索引-碎片化数据 http://www.agildata.com/datab ...

随机推荐

  1. Spring集成hibernate错误

    八月 25, 2016 7:55:31 下午 org.apache.tomcat.util.digester.SetPropertiesRule begin警告: [SetPropertiesRule ...

  2. SQLServer BCP 命令的使用

    现在有一个包含数据的文件,每个字段用“|”分隔,现在要把这些数据导入到数据库的表中. 数据文件如下: R001|20150710 可以使用如下命令: bcp testDB.dbo.testTable ...

  3. Codeforces Round #353 (Div. 2) E. Trains and Statistic 线段树+dp

    题目链接: http://www.codeforces.com/contest/675/problem/E 题意: 对于第i个站,它与i+1到a[i]的站有路相连,先在求所有站点i到站点j的最短距离之 ...

  4. 使用CSS禁止textarea调整大小功能的方法

    这篇文章主要介绍了使用CSS禁止textarea调整大小功能的方法,禁止可以调整textarea大小功能的方法很简单,使用CSS的resize属性即可,需要的朋友可以参考下 如果你使用谷歌浏览器或火狐 ...

  5. Leetcode#151 Reverse Words in a String

    原题地址 将单词按空格分词,然后倒序拼接即可 代码: void reverseWords(string &s) { vector<string> words; ; ; ; i &l ...

  6. ubuntu搭建lnmp

    http://wiki.ubuntu.org.cn/Nginx#.E5.AE.89.E8.A3.85Php.E5.92.8Cmysql

  7. javascript去除首尾空白字符

    if ( twocode.replace(/^\s+|\s+$/g,"")=="" ) { alert("二维码不能为空"); docume ...

  8. HDU1005Number Sequence(找规律)

    Number Sequence Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)T ...

  9. AS3之正则表达式讲解

    限制输入内容 (一).my_txt.restrict = "A-Z 0-9";               仅允许在文本字段中输入大写字符.空格和数字 (二).my_txt.res ...

  10. .NET设计模式(17):命令模式(Command Pattern)(转)

    概述 在软件系统中,“行为请求者”与“行为实现者”通常呈现一种“紧耦合”.但在某些场合,比如要对行为进行“记录.撤销/重做.事务”等处理,这种无法抵御变化的紧耦合是不合适的.在这种情况下,如何将“行为 ...