OS:

Oracle Linux Server release 5.7

DB:

Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production

问题:

在RAC测试环境中,一个节点被测试同事重启服务器,导致此节点无法正常启动,报错信息如下:

SQL>startup

ORA-01078: failure in processing system parameters
ORA-01565: error in identifying file "++DATA/ofcdb/spfileofcdb.ora"
ORA-17503: ksfdopn:2 Failed to open file "+DATA/ofcdb/spfileofcdb.ora"

ORA-29701:unable to connect to Cluster Synchronization Service

一、检查 CRS 状态

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager

二、检查CRS 的启动情况
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl stat res -t -init
--------------------------------------------------------------------------------
NAME TARGET STATE SERVER STATE_DETAILS 
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.asm
1 ONLINE OFFLINE 
ora.cluster_interconnect.haip
1 ONLINE OFFLINE 
ora.crf
1 ONLINE ONLINE ofc_node1 
ora.crsd
1 ONLINE OFFLINE 
ora.cssd
1 ONLINE OFFLINE STARTING 
ora.cssdmonitor
1 ONLINE ONLINE ofc_node1 
ora.ctssd
1 ONLINE OFFLINE 
ora.diskmon
1 ONLINE OFFLINE 
ora.evmd
1 ONLINE OFFLINE 
ora.gipcd
1 ONLINE ONLINE ofc_node1 
ora.gpnpd
1 ONLINE ONLINE ofc_node1 
ora.mdnsd
1 ONLINE ONLINE ofc_node1

如上显示,ora.cssd 进程启动出现问题

三、检查ocssd 的日志
[oracle@ofc_node1 cssd]$ tail -20f /home/oracle/app/11.2.0/grid/log/ofc_node1/cssd/ocssd.log

2013-11-13 17:44:07.696: [ CSSD][1091463488]clssnmvDHBValidateNCopy: node 2, ofc_node2, has a disk HB, but no network HB, DHB has
rcfg 230109004, wrtcnt, 44243250, LATS 24064574, lastSeqNo 44243249, uniqueness 1361347113, timestamp 1384335843/1507552134
2013-11-13 17:44:08.697: [ CSSD][1091463488]clssnmvDHBValidateNCopy: node 2, ofc_node2, has a disk HB, but no network HB, DHB has
rcfg 230109004, wrtcnt, 44243251, LATS 24065574, lastSeqNo 44243250, uniqueness 1361347113, timestamp 1384335844/1507553134

发现大量如上所述的 日志信息

四、查找metalink,定位错误信息

五、检查网络信息,私网 eth1 果然有问题
[root@ofc_node1 ~]# /sbin/ifconfig
eth0 Link encap:Ethernet HWaddr 00:1C:C4:94:9C:A6 
inet addr:192.168.12.179 Bcast:192.168.12.255 Mask:255.255.255.0
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:308822 errors:0 dropped:0 overruns:0 frame:0
TX packets:14067 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:20886515 (19.9 MiB) TX bytes:2593284 (2.4 MiB)
Interrupt:16 Memory:f8000000-f8012800

eth1 Link encap:Ethernet HWaddr 00:1C:C4:93:7D:EC 
inet addr:1.1.1.179 Bcast:1.1.1.255 Mask:255.255.255.0
UP BROADCAST MULTICAST MTU:1500 Metric:1
RX packets:78 errors:0 dropped:0 overruns:0 frame:0
TX packets:16 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:7041 (6.8 KiB) TX bytes:12444 (12.1 KiB)
Interrupt:17 Memory:fa000000-fa012800

两个节点互相 Ping 不通

[root@ofc_node1 ~]# ping 1.1.1.180
PING 1.1.1.180 (1.1.1.180) 56(84) bytes of data.
From 1.1.1.179 icmp_seq=1 Destination Host Unreachable

六、重启网络设置
[root@ofc_node1 ~]# /etc/init.d/network restart

七、重启CRS
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl stop crs -f
CRS-2791: Starting shutdown of Oracle High Availability Services-managed resources on 'ofc_node1'
CRS-2673: Attempting to stop 'ora.mdnsd' on 'ofc_node1'
CRS-2673: Attempting to stop 'ora.crf' on 'ofc_node1'
CRS-2677: Stop of 'ora.crf' on 'ofc_node1' succeeded
CRS-2673: Attempting to stop 'ora.gipcd' on 'ofc_node1'
CRS-2677: Stop of 'ora.mdnsd' on 'ofc_node1' succeeded
CRS-2677: Stop of 'ora.gipcd' on 'ofc_node1' succeeded
CRS-2673: Attempting to stop 'ora.gpnpd' on 'ofc_node1'
CRS-2677: Stop of 'ora.gpnpd' on 'ofc_node1' succeeded
CRS-2793: Shutdown of Oracle High Availability Services-managed resources on 'ofc_node1' has completed
CRS-4133: Oracle High Availability Services has been stopped.

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4639: Could not contact Oracle High Availability Services

[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl start crs
CRS-4123: Oracle High Availability Services has been started.

八、检查crs 状态
[root@ofc_node1 ~]#
[root@ofc_node1 ~]# /home/oracle/app/11.2.0/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4537: Cluster Ready Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online

[oracle@ofc_node1 ~]$ crs_stat -t
Name Type Target State Host 
------------------------------------------------------------
ora.DATA.dg ora....up.type ONLINE ONLINE ofc_node1 
ora....ER.lsnr ora....er.type ONLINE ONLINE ofc_node1 
ora....N1.lsnr ora....er.type ONLINE ONLINE ofc_node2 
ora.asm ora.asm.type ONLINE ONLINE ofc_node1 
ora.cvu ora.cvu.type ONLINE ONLINE ofc_node2 
ora.gsd ora.gsd.type OFFLINE OFFLINE 
ora....network ora....rk.type ONLINE ONLINE ofc_node1 
ora.oc4j ora.oc4j.type ONLINE ONLINE ofc_node2 
ora....SM1.asm application ONLINE ONLINE ofc_node1 
ora....E1.lsnr application ONLINE ONLINE ofc_node1 
ora....de1.gsd application OFFLINE OFFLINE 
ora....de1.ons application ONLINE ONLINE ofc_node1 
ora....de1.vip ora....t1.type ONLINE ONLINE ofc_node1 
ora....SM2.asm application ONLINE ONLINE ofc_node2 
ora....E2.lsnr application ONLINE ONLINE ofc_node2 
ora....de2.gsd application OFFLINE OFFLINE 
ora....de2.ons application ONLINE ONLINE ofc_node2 
ora....de2.vip ora....t1.type ONLINE ONLINE ofc_node2 
ora.ofcdb.db ora....se.type ONLINE ONLINE ofc_node2 
ora.ons ora.ons.type ONLINE ONLINE ofc_node1 
ora.scan1.vip ora....ip.type ONLINE ONLINE ofc_node2

[oracle@ofc_node1 ~]$ sqlplus / as sysdba

SQL*Plus: Release 11.2.0.2.0 Production on Wed Nov 13 17:56:23 2013

Copyright (c) 1982, 2010, Oracle. All rights reserved.

Connected to:
Oracle Database 11g Enterprise Edition Release 11.2.0.2.0 - 64bit Production
With the Partitioning, Real Application Clusters, Automatic Storage Management, OLAP,
Data Mining and Real Application Testing options

SQL>

SQL> select name from v$datafile;

NAME
--------------------------------------------------------------------------------
+DATA/ofcdb/datafile/system.256.780865119
+DATA/ofcdb/datafile/sysaux.257.780865121
+DATA/ofcdb/datafile/undotbs1.258.780865121
+DATA/ofcdb/datafile/users.259.780865121
+DATA/ofcdb/datafile/undotbs2.267.780865281

附文档: Troubleshoot Grid Infrastructure Startup Issues (Doc ID 1050908.1)
How to Validate Network and Name Resolution Setup for the Clusterware and RAC (Doc ID 1054902.1)

ORA-01078、ORA-01565、ORA-17503、ORA-29701的更多相关文章

  1. CSS3与页面布局学习总结(二)——Box Model、边距折叠、内联与块标签、CSSReset

    一.盒子模型(Box Model) 盒子模型也有人称为框模型,HTML中的多数元素都会在浏览器中生成一个矩形的区域,每个区域包含四个组成部分,从外向内依次是:外边距(Margin).边框(Border ...

  2. C#、JAVA操作Hadoop(HDFS、Map/Reduce)真实过程概述。组件、源码下载。无法解决:Response status code does not indicate success: 500。

    一.Hadoop环境配置概述 三台虚拟机,操作系统为:Ubuntu 16.04. Hadoop版本:2.7.2 NameNode:192.168.72.132 DataNode:192.168.72. ...

  3. 教你一招:解决win10/win8.1系统在安装、卸载软件时出现2502、2503错误代码的问题

    经常遇到win10/win8.1系统在安装.卸载软件时出现2502.2503错误代码的问题. 解决办法: 1.打开任务管理器后,切换到“详细信息”选项卡,找到explore.exe这个进程,然后结束进 ...

  4. Map集合及与Collection的区别、HashMap和HashTable的区别、Collections、

    特点:将键映射到值的对象,一个映射不能包含重复的键,每个键最多只能映射到一个值. Map集合和Collection集合的区别 Map集合:成对出现 (情侣)                       ...

  5. 兼容8事件绑定与解绑addEventListener、removeEventListener和ie的attachEvent、detachEvent

    兼容8事件绑定与解绑addEventListener.removeEventListener和ie的attachEvent.detachEvent   ;(function(){ // 事件绑定 bi ...

  6. TFS API:三、TFS WorkItem添加和修改、保存

    TFS API:三.TFS  WorkItem添加和修改.保存 WorkItemStore:表示跟踪与运行 Team Foundation Server的服务器的工作项客户端连接. A.添加工作项 1 ...

  7. C#与Java对比学习:类型判断、类与接口继承、代码规范与编码习惯、常量定义

    类型判断符号: C#:object a;  if(a is int) { }  用 is 符号判断 Java:object a; if(a instanceof Integer) { } 用 inst ...

  8. TCP 三次握手四次挥手, ack 报文的大小.tcp和udp的不同之处、tcp如何保证可靠的、tcp滑动窗口解释

    一.TCP三次握手和四次挥手,ACK报文的大小 首先连接需要三次握手,释放连接需要四次挥手 然后看一下连接的具体请求: [注意]中断连接端可以是Client端,也可以是Server端. [注意] 在T ...

  9. Python学习笔记 之 递归、二维数组顺时针旋转90°、正则表达式

    递归.二维数组顺时针旋转90°.正则表达式 1.   递归算法是一种直接或间接调用自身算法的过程. 特点: 递归就是在过程或函数里调用自身 明确的递归结束条件,即递归出口 简洁,但是不提倡 递归次数多 ...

  10. 【Go入门教程3】流程(if、goto、for、switch)和函数(多个返回值、变参、传值与传指针、defer、函数作为值/类型、Panic和Recover、main函数和init函数、import)

    这小节我们要介绍Go里面的流程控制以及函数操作. 流程控制 流程控制在编程语言中是最伟大的发明了,因为有了它,你可以通过很简单的流程描述来表达很复杂的逻辑.Go中流程控制分三大类:条件判断,循环控制和 ...

随机推荐

  1. Orchard官方文档翻译(九) 新增并管理媒体资源

    原文地址:http://docs.orchardproject.net/Documentation/Adding-and-managing-media-content 想要查看文档目录请用力点击这里 ...

  2. gem5 运行x86全系统仿真

    使用gem5可以启动Linux内核,称为全系统模拟,启动之后,可以通过telent连接,进行访问,但四telent有时不稳定,gem5推荐使用m5term进行连接访问,整个步骤如下: (1)打开终端, ...

  3. Android基础总结(3)——UI界面布局

    Android的UI设计有好几种界面程序编写方式.大体上可分为两大类:一类是利用可视化工具来进行,允许你进行拖拽控件来进行布局:还有一类是编写xml文档来进行布局.这两种方法可以相互转换. 1.常见的 ...

  4. 【.NET】对文件的对称加密

    using System;using System.IO;using System.Security.Cryptography;namespace ConsoleApp_SymmetricalEncr ...

  5. 索引 使用use index优化sql查询

    好博客:MySQL http://webnoties.blog.163.com/blog/#m=0&t=1&c=fks_08407108108708107008508508609508 ...

  6. leetcode1:在数组中找2个数的和正好等于一个给定值--哈希

    package java_net_test; import java.util.HashMap; import java.util.Iterator; import java.util.Map; pu ...

  7. Django搭建及源码分析(二)

    上节针对linux最小系统,如何安装Django,以及配置简单的Django环境进行了说明. 本节从由Django生成的manage.py开始,分析Django源码.python版本2.6,Djang ...

  8. python 解析XML python模块xml.dom解析xml实例代码

    分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...

  9. Nginx Location配置语法介绍、优先级说明

    nginx 语法规则:location   [=|~|~*|^~|!~|!~*]    /uri/   { … } location匹配的是$document_uri,$document_uri 会随 ...

  10. 了解Unix进程(1)

    今天瞎看 看到一本了解Unix进程 -- 理解UNIX进程 的书 不错,可以看看,使用的ruby语言,第一章讲的是一些基础的知识 1.输出进程号和父进程号: puts Process.pid # 得到 ...