一.事故说明 最近出现了一次OCR盘的故障导致Oracle集群件宕机的事故,后以独占模式启动集群,并使用ocr备份恢复了OCR文件以及重新设置了vote disk,然后关闭集群,重启成功. 因此在此处进行事故重现以吸取教训.   二.重现步骤 测试RAC环境中只有+OCR和+DATA两个ASM磁盘组. 1.做好ocr的手工备份 [root@node1 ~]# ocrconfig -export /home/oracle/ocr.bak 紧急情况下没有ocr的备份也不要紧,在$CRS_HOME的c…
问题描述:Linux VM异常重启,需要排查问题原因 排查结果: 查询Messages日志获取到的信息 虚拟机内核版本: Jun :: test01 kernel: Linux version -.el6.x86_64 (mockbuild@worker1.bsys.centos.org) ( (Red Hat -) (GCC) ) # SMP Tue May :: UTC 查看到虚拟机重启时间约为:2019/6/20 03:34 CST Jun :: test01 kernel: hv_uti…
目录 一.问题详情 top 命令截图 联系腾讯云排查 检查系统日志发现异常 二. 问题解析 三.问题原因 最终结论 四.扩展 进程的几种状态 马后炮 如何快速清理僵尸进程(Z) 内核参数相关 如何查看哪些文件被哪些进程被锁 一.问题详情 linux一切皆文件 2021年4月2号,晚上10.45分左右,线上业务异常,后排查 线上服务器CPU 异常高,机器是 16核 64G的.但是实际负载已经达到了 140左右. top 命令截图 联系腾讯云排查 虚拟机所属于物理机是否有故障. 虚拟机所用的资源是否…
本文转自 惜纷飞 大师. 模拟基表事务未提交数据库crash,undo丢失恢复异常恢复,运维DBA反映Oracle数据库无法启动报错ORA-01157 ORA-01110,分析原因为Oracle数据库坏块导致 对于基表特别是bootstrap$中的表,如果进行了dml操作,但是没有提交,这个时候数据库crash,而且undo异常.对于类似的场景,都是很多数据库恢复的人都有畏惧,因为_corrupted_rollback_segments参数不能起作用.本实验dml修改seq$表,最终却引起了un…
一.问题发现 命令行进入数据库实例手动给某张表进行alter操作,发现如下报错. mysql> use xx_xxx; No connection. Trying to reconnect... Connection Current database: *** NONE *** Reading table information for completion of table and column names You can turn off this feature to get a quic…
接今早的mysql问题,最终原因是mysql数据库的数据库文件以及pid丢失,当我还纳闷为什么丢失的情况下 我研究了下Azure云平台的数据磁盘原理,在Azure下,新建vm(centos)后只会提供一个30g的系统盘,已经一个 596的tmp盘,也就是临时系统磁盘,并且该磁盘挂载的位置为/mnt/resource/,在该目录下有一个数据存储警告 大概的意思就是告诉你这个是一个临时数据盘,不建议存储数据,不可恢复,今早mysql的根本原因就在于当时不熟 mysql的运维人员直接利用了这个596g…
更多操作参考:https://www.cnblogs.com/gered/p/9435282.html [生产问题]-dbcc checkdb报错-数据页故障 数据页故障,索引页故障 use db_tank dbcc checkdb--报错如下由index ID 3可以得知,其为非聚集索引页出了问题 Msg , , State , Line , , partition ID , alloc unit ID (type :) :). Possible chain linkage problem.…
版本:V2.0 第一章       Spark 性能调优 1.1      常规性能调优 1.1.1   常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略. 资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示: 代码清单2-1 标准Spark提交脚本 /usr/opt/modules/spark/…
一.问题描述 2019-02-19 08:44左右,实时计算服务重启,报错显示找不到zk集群的leader节点,同时ZooKeeper集群有告警显示连接超时: 指标[连接耗时(ms)=18221]符合告警规则[连接耗时(ms)>=3000] 二.排查过程 查看当前集群状态,集群状态正常,查看报“连接超时”的zk节点日志,发现有shutdown情况,表明作为follower的zk server在一段时间内会停止工作: 2. 继续查看zk运行日志,发现有大量的fsync的告警,说明ZooKeeper…
VSAN简介:VSAN是以vSphere内核为基础开发,可以扩展使用的分布式存储架构.该架构在vSphere集群主机中安硬盘及闪存构建VSAN存储层,通过存储进行管理与控制,最终形成一个共享存储层.VSAN数据存储是一个对象存储,以文件系统的形式呈现给vSphere主机.这个对象存储服务会从VSAN集群中的每台主机上加载卷,然后展现为单一的.在所有节点上可见的分布式共享数据存储.VSAN简化了存储配置,对于虚拟机来说就只有一个数据存储.这个分布式数据存储来自VSAN集群中每台vSphere主机上…