11gR2 新特性： Rebootless Restart

众所周知，当集群出现问题时，例如某个节点丢失网络心跳，或者不能够访问表决盘，或者节点出现了严重的性能问题等，CRS会选择将某个节点的OS 重启，以便保证集群的一致性。当然，大部分的重启都是由CRS的核心进程ocssd.bin发起的。但是，如果CRS 只是节点上的应用之一或者私网和存储的问题只是短时间的出现，那么重启节点的行为就会导致节点上所有的应用全部停止，这在很多系统上并不是我们希望看到的。

所以从版本11.2.0.2 开始，oracle新特性rebootless restart被介绍。当出现以下情况的时候，集群件（GI）会重新启动集群管理软件，而不是将节点重启。
1.当某个节点连续丢失网络心跳超过misscount时。
2.当某个节点不能访问大多数表决盘（VF）时。
3.当member kill 被升级成为node kill的时候。
在之前的版本，以上情况，集群管理软件（CRS）会直接重启节点。

之后，我们通过几个例子了解上面提到的几种情况。
1.当某个节点连续丢失网络心跳超过misscount的情况
2010-08-13 17:00:26.213: [    CSSD][4073040800]clssnmPollingThread: node <nodename> (1) at 50% heartbeat fatal, removal in 14.540 seconds
……
2010-08-13 17:00:33.227: [    CSSD][4073040800]clssnmPollingThread: node <nodename> (1) at 75% heartbeat fatal, removal in 7.470 seconds
……
2010-08-13 17:00:38.236: [    CSSD][4073040800]clssnmPollingThread: node <nodename> (1) at 90% heartbeat fatal, removal in 2.460 seconds, seedhbimpd 1 ?本地节点report 远程节点丢失本地心跳
……
2010-08-13 17:00:40.707: [    CSSD][4052061088](:CSSNM00008: )clssnmCheckDskInfo: Aborting local node to avoid splitbrain. Cohort of 1 nodes with leader 2, <nodename>, is smaller than cohort of 1 nodes led by node 1, <nodename>, based on map type 2 ? 为了避免split-brain ，本地节点重新启动GI。
2010-08-13 17:00:40.707: [    CSSD][4052061088]###################################
2010-08-13 17:00:40.707: [    CSSD][4052061088]clssscExit: CSSD aborting from thread clssnmRcfgMgrThread
2010-08-13 17:00:40.707: [    CSSD][4052061088]###################################
2.当某个节点不能访问大多数表决盘（VF）的情况
2010-08-13 18:31:23.782: [    CSSD][150477728]clssnmvDiskOpen: Opening /dev/sdb8
2010-08-13 18:31:23.782: [   SKGFD][150477728]Handle 0xf43fc6c8 from lib :UFS:: for disk :/dev/sdb8:

2010-08-13 18:31:23.782: [    CLSF][150477728]Opened hdl:0xf4365708 for dev:/dev/sdb8:
2010-08-13 18:31:23.787: [   SKGFD][150477728]ERROR: -9(Error 27072, OS Error (Linux Error: 5: Input/output error ? 访问表决盘出错。
Additional information: 4
Additional information: 720913
Additional information: -1)
)
2010-08-13 18:31:23.787: [    CSSD][150477728](:CSSNM00060: )clssnmvReadBlocks: read failed at offset 17 of /dev/sdb8
……
2010-08-13 18:34:38.206: [    CSSD][4110736288](:CSSNM00018: )clssnmvDiskCheck: Aborting, 0 of 1 configured voting disks available, need 1 ?在经过long disk timeout时间之后，GI被重新启动。
2010-08-13 18:34:38.206: [    CSSD][4110736288]###################################
2010-08-13 18:34:38.206: [    CSSD][4110736288]clssscExit: CSSD aborting from thread clssnmvDiskPingMonitorThread
2010-08-13 18:34:38.206: [    CSSD][4110736288]###################################

3.member kill 被升级成为node kill的情况。
2013-01-14 23:49:52.093: [    CSSD][45]clssgmmkLocalKillThread: Time up. Timeout 30500 Start time 130388522 End time 130419022 Current time 130419087 ?member kill 超时发生
2013-01-14 23:49:52.093: [    CSSD][45]clssgmmkLocalKillResults: Replying to kill request from remote node 1 kill id 1 Success map 0x00000000 Fail map 0x00000000
……
2013-01-14 23:49:52.235: [    CSSD][31](:CSSNM00005: )clssnmvDiskKillCheck: Aborting, evicted by node <nodename>, number 1, sync 239654498, stamp 130416886 ?该节点被驱逐出集群，也就是重启GI
2013-01-14 23:49:52.235: [    CSSD][31]###################################
2013-01-14 23:49:52.235: [    CSSD][31]clssscExit: CSSD aborting from thread clssnmvKillBlockThread
2013-01-14 23:49:52.235: [    CSSD][31]###################################
2013-01-14 23:49:52.235: [    CSSD][31](:CSSSC00012: )clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally

从上面的输出，我们能看到三种情况中ocssd.bin进程都能够正常地工作，当出现问题时，能过做出正确的决定。所以，rebootless restart能够保证由ocssd.bin主动发起的重启。但是，如果是由于ocssd.bin 出现问题（例如：挂起），或者操作系统性能引起的重启，rebootless restart是无法起作用的，因为，对于这种情况ocssd.bin已经不能正常工作，节点重启仍然不可避免。具体关于如何诊断节点重启的问题，请参考之前的文章 “11gR2 如何诊断节点重启问题”。

GI 在重启集群之前，首先要对集群进行graceful shutdown, 基本的步骤如下。
1．停止本地节点的所有心跳（网络心跳，磁盘心跳和本地心跳）。
2．通知cssd agent，ocssd.bin即将停止
3．停止所有注册到css的具有i/o能力的进程，例如 lmon。
4．cssd通知crsd 停止所有资源，如果crsd不能成功的停止所有的资源，节点重启仍然会发生。
5．Cssd等待所有的具有i/o能力的进程退出，如果这些进程在short i/o timeout时间内不能不能全部推迟，节点重启仍然会发生。
6．通知cssd agent 所有的有i/o能力的进程全部退出。
7．Ohasd 重新启动集群。
8．本地节点通知其他节点进行集群重配置。

综上所述，对于11.2.0.2 及以上版本的集群，如果您发现了节点重启，那么，ocssd.bin 挂��或者操作系统性能的问题应该是首先检查的内容。当然，如果rebootless restart的gracefull shutdown 不能在指定的时间内完成，节点重启仍然会发生，这需要查看ocssd.log进行诊断。

11gR2 新特性： Rebootless Restart的更多相关文章

Oracle 11g 新特性 -- Oracle Restart 说明（转载）
转载:http://blog.csdn.net/tianlesoftware/article/details/8435670 一． OHASD 说明 Oracle 的Restart 特性是Oracl ...
11gR2新特性---gipc守护进程
在这篇文章中,我们会对11gR2 新的守护进程gipcd(资源名称ora.gipcd)进行介绍,其中包括gipc的功能,启动顺序和一些基本的测试. 我们知道,对于oracle集群来说,集群私网是非常重 ...
11gR2新特性---Gpnp守护进程
在这篇文章中,我们会对11gR2 新的守护进程(资源名称ora.gpnpd)进行介绍,其中包含的gpnp的功能,启动顺序和基本的诊断方法. gpnp全称为grid plug and play,该组件的 ...
11g 新特性 Member Kill Escalation 简介
首先我们介绍一下历史.在oracle 9i/10g 中,如果一个数据库实例需要驱逐(evict, alert 文件中会出现ora-29740错误)另一个实例时,需要通过LMON进程在控制文件(以下简称 ...
Oracle 11gR2 RAC 新特性说明
最近接触了一下Oracle 11g R2 的RAC,发现变化很大. 所以在自己动手做实验之前还是先研究下它的新特性比较好. 一．官网介绍先看一下Oracle 的官网文档里对RAC 新特性的一 ...
Oracle 11g新特性 -- 延迟段
11gR2之前的版本中,当创建一张表时,会自动分配段空间,这样做有几个弊端: 1. 初始创建表时就需要分配空间,自然会占用一些时间,如果初始化多张表,这种影响就被放大. 2. 如果很多表开始的一段时间 ...
.Net Framework 各个版本新特性总结 (一)
.Net Framework 4.5 新特性最近面试时又看到有问.Net Framework 新特性的问题,一时被问到了.平时也是拿起来就用,新版本出来了,新特性也就是瞄一眼,也没去仔细查看.这次干 ...
CentOS 7 之几个新特性（转）
上篇我们讲到默认没有ifconfig是centos7的新特性,所以我特意上网搜索了一下其新特性,找到一篇文章,现转过来. centos最小好化安装没有ifconfig命令刚安装了centos7.0, ...
2012 T-SQL 新特性 and O2O项目
SQL Server 2012 T-SQL 新特性 NoSQL之HBase 9月初淘宝飞芃做了一个关于HBase的分享,讲的激情飞扬,让听众收益匪浅,现做下简单总结. HBase是一个NoSQL数 ...

随机推荐

使用BIND安装智能DNS服务器（三）---添加view和acl配置
智能DNS的配置主要修改named.conf文件,利用view和acl来实现. acl文件内容,这里只列出一部分,具体详细的可以参考这个网址纯真IP库,给出了十分详细的IP地址,下载安装后,打开软件 ...
扩展thinkphp5的redis类方法
笔者在开发时发现,thinkphp5的自带redis类方法,只有简单的读取缓存.写入缓存的基本方法,远不能满足我们业务的需求.redis本身支持五种数据类型,string(字符串).hash(哈希). ...
sqlserver2012——INTERSECT交查询
1. select a.成绩编号,a.分数,b.姓名 From 成绩信息 a,学生信息 b ' 一般的查询 a.成绩编号,a.分数,b.姓名 From 成绩信息 a,学生信息 b ' order a. ...
MVC笔记-模板页布局
MVC分区后要加上Ares下的主目录如:@Html.ActionLink("这个帖子真奇葩", "HotIndex", "Prosceniu ...
自动化测试 Cucumber
Cucumber是一个能够理解用普通语言描述的测试用例的支持行为驱动开发(BDD)的自动化测试工具,用Ruby编写,支持Java和.Net等多种开发语言. Cucumber 三大组成: Feature ...
VLAN-8-VTP配置
未配置域名的服务器不会发送任何VTP更新.
Leetcode:根据身高重建队列
题目假设有打乱顺序的一群人站成一个队列. 每个人由一个整数对(h, k)表示,其中h是这个人的身高,k是排在这个人前面且身高大于或等于h的人数. 编写一个算法来重建这个队列. 注意: 总人数少于11 ...
[Java]hashCode的作用
一.如何理解hashCode的作用: 以java.lang.Object来理解,JVM每new一个Object,它都会将这个Object丢到一个Hash哈希表中去,这样的话,下次做Object的比较或 ...
CodeForces - 507B - Amr and Pins（计算几何）
Amr loves Geometry. One day he came up with a very interesting problem. Amr has a circle of radius r ...
win7设置管理员权限
1.在运行中输入:secpol.msc 2.修改设置权限设置 3.在账户中, 将administrator启用并设置密码将其他用户取消管理原权限,设置为user权限

11gR2 新特性： Rebootless Restart

11gR2 新特性： Rebootless Restart的更多相关文章

随机推荐

热门专题