Oracle Real Application Clusters(Oracle RAC),相对于Oracle单实例来说部署安装和维护都增加了难度,尤其在日常的维护和故障处理过程中,各种日志的查看更加重要,本文主要对Oracle 11g 集群下的目录结构和路径进行介绍和说明。

  以下是集群目录下日志结构,以及对应目录的功能说明,对排查问题尤其重要。

[grid@dbrac1 dbrac1]$ tree -d
.
├── acfslog
├── acfsrepl
├── acfsreplroot
├── acfssec
├── admin
├── agent <==========包含CRSD和OHASD守护进程的oraagent、orarootagent、oracssdagent和oracssdmonitor的跟踪及诊断日志文件
│ ├── crsd
│ │ ├── application_root
│ │ ├── oraagent_grid
│ │ ├── oraagent_oracle
│ │ ├── orarootagent_root
│ │ └── scriptagent_grid
│ └── ohasd
│ ├── oraagent_grid
│ ├── oracssdagent_root
│ ├── oracssdmonitor_root
│ └── orarootagent_root
├── client <==========包含各种GI客户端(如CLSCFG/GPNP/OCRCONFIG/OLSNODES/OIFCFG)的跟踪和诊断日志。
├── crflogd <==========包含由Oracle集群健康监控器(Oracle CHM)提供的集群记录器服务记录的跟踪和诊断日志文件。
├── crfmond <==========包含由Oracle集群健康监控器(Oracle CHM)提供的系统监控服务记录的跟踪和诊断日志文件。
├── crsd <==========包含Oracle CRSD守护进程的跟踪和诊断日志文件,在发生任何Oracle集群件问题时,从该目录开始着手处理是很不错的起点
├── cssd <==========包含集群同步CSS日志,其中包括来自客户端CSS侦听器的操作
├── ctssd <==========包含用于排除Oracle集群时间同步服务故障的调试日志文件,这一服务在Oracle GI中引入,用于同步集群节点上的时钟。
├── cvu <==========包含由Oracle集群验证实用工具生成的跟踪和调试日志
│ ├── cvulog
│ └── cvutrc
├── diskmon <==========用于排除Oracle磁盘监控器守护进程故障的调试日志文件。
├── evmd <==========包含事件卷管理器(EVM)和evmlogger守护进程的跟踪及诊断文件。它在调试中使用频率要低于crsd和cssd目录。
├── gipcd <==========包含用于排除Oracle网格进程间通信守住程序进程故障的调试和跟踪文件。
├── gnsd <==========包含用于排除Oracle网格命名服务相关问题的跟踪和调试日志文件,这一服务是在Oracle GI中引入的。
├── gpnpd <==========包含Oracle网格即插即用守护进程的日志和输出文件。
├── mdnsd <==========包含用于排除多播域名服务故障的跟踪和诊断日志文件。Oracle网格命名服务使用这一服务来管理名称解析和服务发现。
├── ohasd <==========包含Oracle高可用性服务守护进程的日志和输出文件。ohasd日志文件是对于Oracle11g以及更高版本中诊断集群启动问题是真正重要的文件
├── racg <==========包括各个Oracle RACG可执行文件中跟踪和调试日志
│ ├── racgeut
│ ├── racgevtf
│ └── racgmain
└── srvm <==========包含Oracle服务器管理器服务的日志文件 38 directories
[grid@dbrac1 dbrac1]$ pwd
/u01/app/11.2.0/grid/log/dbrac1

除以上目录外,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log日志也相当重要,出问题第一个需要查看的目录。

  介绍完集群的日志后,下面说一则案例,关于客户集群单节点服务器重启,日志查看顺序。与客户沟通确认,大概下午3点左右重启。

  1、查看系统日志,排查重启时间,确实14:51:38,系统日志开始清理集群进程,并重启了系统,但是谁发起了本次请求,还需要进一步查看集群日志

  思考:1、集群仲裁会发生节点重启(引起仲裁的机制较多)

     2、服务器级别故障

3、其他未知原因 

2、检查集群日志的alert,/u01/app/11.2.0/grid/log/dbrac1/alertdbrac1.log,在14:52:04时,接收到agent的关集群命令开始关闭相关进程,在这个日志暂时没有发现异常错误。

    3、排查/u01/app/11.2.0/grid/log/dbrac1/agent目录下的相关日志,agent有两个目录crsd、ohasd,先排查crsd下日志,发现类似消息,均为接收到关闭集群的请求,未发现异常的报错信息,如此看来,需要进一步查看ohasd目录下日志。

    4、通过对/u01/app/11.2.0/grid/log/dbrac1/agent/ohasd目录下的日志进行排查,在oracssdmonitor_root日志中发现如下异常,大致异常是存储链接中断,不可用,这就是集群重启的首要因素,通知客户检查自己的光纤链路情况。

   至此,问题得以解决。

Oracle RAC服务器重启故障排查的更多相关文章

  1. Oracle RAC 服务器端连接负载均衡(Load Balance)

    Oracle RAC服务器端的负载均衡是根据RAC中各节点的连接负荷数情况,将新的连接请求分配到负荷最小的节点上去.当数据库处于运行时,RAC中各节点的PMON进程每3秒会将各自节点的连接负荷数更新到 ...

  2. [troubleshoot][daily][redhat] 设备反复重启故障排查

    一台服务器设备,反复重启,每天重启数次. 一: 原因分析及初步排异. 1.  硬件,内存主板,一一更换,甚至除了硬盘将整台机器都换掉了,依然重启. 2.  排除电源问题,换了电源线,换了插座,还是重启 ...

  3. 记录一次MySQL进程崩溃,无法重启故障排查

    最近程序在跑着没几天,突然访问不了,查看应用进程都还在.只有数据库的进程down掉了.于是找到日志文件看到如下错误 -- :: [Note] InnoDB: Initializing buffer p ...

  4. Oracle RAC 环境下的 v$log v$logfile

    通常情况下,在Oracle RAC 环境中,v$视图可查询到你所连接实例的相关信息,而gv$视图则包含所有实例的信息.然而在RAC环境中,当我们查询v$log视图时说按照常理的话,v$log视图应当看 ...

  5. Oracle RAC 负载均衡测试(结合服务器端与客户端)

    Oracle RAC 负载均衡使得从客户端发起的连接能够有效地分配到监听器负载较小的实例上.有两种方式实现客户端负载均衡,一是通过配置客户端的load_balance,一是通过配置服务器端的remot ...

  6. 解决oracle服务器重启之后连接报错的问题

    DB服务器重启之后再连接报错如下: 原因是重启之后listener.ora被还原成初始文件,sid被清空. 解决步骤: 1.查看监听服务和数据库服务: 由此找到listener.ora文件的路径:D: ...

  7. Oracle RAC中的一台机器重启以后无法接入集群

          前天有个同事说有套AIX RAC的其中一台服务器重启了操作系统以后,集群资源CSSD的资源一直都在START的状态,检查日志输出有如下内容: [    CSSD][1286]clssnmv ...

  8. Atitit.播放系统的选片服务器,包厢记时系统 的说明,教程,维护,故障排查手册p825

    Atitit.播放系统的选片服务器,包厢记时系统 的说明,教程,维护,故障排查手册p825 1. 播放系统服务器方面的维护2 1.1. 默认情况下,已经在系统的启动目录下增加了俩个启动项目2 1.2. ...

  9. CentOS服务器上搭建Gitlab安装步骤、中文汉化详细步骤、日常管理以及异常故障排查

    一, 服务器快速搭建gitlab方法 可以参考gitlab中文社区 的教程centos7安装gitlab:https://www.gitlab.cc/downloads/#centos7centos6 ...

随机推荐

  1. git update-index --assume-unchanged

    有的时候,不小心提交了一个配置文件config.php,每次在本地开发测试之后,都需要更改配置文件.相当麻烦. 使用 git update-index --assume-unchanged   /pa ...

  2. tensorflow在文本处理中的使用——CBOW词嵌入模型

    代码来源于:tensorflow机器学习实战指南(曾益强 译,2017年9月)——第七章:自然语言处理 代码地址:https://github.com/nfmcclure/tensorflow-coo ...

  3. Linux 线程实现机制分析 Linux 线程实现机制分析 Linux 线程模型的比较:LinuxThreads 和 NPTL

    Linux 线程实现机制分析 Linux 线程实现机制分析  Linux 线程模型的比较:LinuxThreads 和 NPTL http://www.ibm.com/developerworks/c ...

  4. rabbitmq template发送的消息中,Date类型字段比当前时间晚了8小时

    前言 前一阵开发过程遇到的问题,用的rabbitmq template发送消息,消息body里的时间是比当前时间少了8小时的,这种一看就是时区问题了. 就说说为什么出现吧. 之前的配置是这样的: @B ...

  5. centos 利用mailx发送邮件

    这里就已163或者126邮箱为例!阿里云的25号端口好像发送不了,用465端口可以发送成功! 安装:yum install -y mailx 然后就是修改配置文件 set ssl-verify=ign ...

  6. 【Docker Compose】简介与安装

    1.简介 Compose 是一个用户定义和运行多个容器的 Docker 应用程序.在 Compose 中你可以使用 YAML 文件来配置你的应用服务.然后,只需要一个简单的命令,就可以创建并启动你配置 ...

  7. E420笔记本升级固态硬盘

      后壳比较好拆   机械硬盘盒 这里 可费了好大劲 才 拧开这 4个螺丝 光驱支架买的这个38-5rmb,京东自提       以前不知道的一件事: 原来的光驱挡板要自己拆下来换到新买的光驱支架上面 ...

  8. 0003 HTML常用标签(含base、锚点)、路径

    学习目标 理解: 相对路径三种形式 应用 排版标签 文本格式化标签 图像标签 链接 相对路径,绝对路径的使用 1. HTML常用标签 首先 HTML和CSS是两种完全不同的语言,我们学的是结构,就只写 ...

  9. jeecg中自定义按钮时遇到的问题

  10. 只用这 6 个字符,就可以写出任意 JavaScript 代码!

    你可能在网上见过有人用 几个不同的字符写的各种稀奇古怪的 JavaScript 代码,虽然看起来奇怪,但是能正常运行!比如这个: (!(~+[])+{})[--[~+""][+[] ...