[文章]Linux宕机故障分析案例

【[文章]Linux宕机故障分析案例】的更多相关文章

[文章]Linux宕机故障分析案例

[文章]Linux宕机故障分析案例已采纳收藏  0  1669 0 马化辉 2018-07-01发布背景在Linux系统环境下,服务器宕机发生的频率比较小,但是不少工程师或多或少都会遇到这种情况,有时候会手足无措,不知从何入手.笔者将借助一次案例分析,展示下Linux宕机故障事件的处理方法和思路. 宕机发生的原因不一,或者是硬件原因,或者是性能原因,或者是服务器触发了Linux的bug,导致内核崩溃等等. 案例分析 1. 案情还原: 生产系统服务器dcspodsaa1在4月25日凌晨…

Linux宕机最安全的重启方法(你肯定不知道)

Linux 内核虽然号称“不死族”,几乎不会崩溃或者死机,但是特殊情况下,还是有一定几率会宕机的.因为 Linux 广泛用于生产环境,所以每一次宕机都会引起相当大的损失.本文介绍在它死机至后,一种温柔的重启它的办法或命令! 当你把你的Linux弄死机了,是完全的死机了,你按了Ctrl + Alt + Backspace,也没用的时候该怎么办呢?一些人就会按电源键重启或关机,如果你这样做的话,可能会引起诸多的问题. 本文教你一种温柔的重启它的办法: 对于死机的电脑这是更安全的,你需要按: Ctrl…

Linux服务器宕机案例一则

案例环境操作系统 :Oracle Linux Server release 5.7 64bit 虚拟机硬件配置 : 物理机型号为DELL R720 资源配置 :RAM 8G Intel(R) Xeon(R) CPU E5-2690 8核案例描述早晨发现桂林那边一台Linux服务器(虚拟机)网络无法ping通,于是联系那边的系统管理员通过Lync共享桌面给我,通过他的电脑VMware vSphere Client登录后,发现在控制台亦无响应.无法登录.无法操作,输入操作无响应.也就是说系统…

ORA-04031错误导致宕机案例分析

今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力. 案例环境: 操作系统 :Oracle Linux Server release 5.7 64 bit 数据库版本:Oracle Database 10g Release 10.2.0.4.0 - 64bit Production 案例分析: 收到告警去检查数据库时,发现实例已经宕机.检查告警日志,发现下面错误信息: OR…

linux服务器在运行210天左右宕机

减小字体增大字体作者:错新网来源:www.cuoxin.com 发布时间:2014-2-25 19:21:32 错新网讯最近几天,一批linux线上的服务器接连宕机,当时以为是硬件问题,重启机器之后进入系统查看日志,只发现几条报错: dmesg | grep -i errorERST: Error Record Serialization Table (ERST) support is initialized.ACPI Error: No handler for Region […

【JVM】linux上tomcat中部署的web服务，时好时坏，莫名其妙宕机，报错：There is insufficient memory for the Java Runtime Environment to continue.

=========================================================================================== 环境: linux上的tomcat中部署了一个web服务, 时好时坏,经常上午启动,下午就无法访问. 总是莫名其妙的宕机. =========================================================================================== 解决步骤…

linux服务器宕机分析/性能瓶颈分析

linux服务器宕机分析/性能瓶颈分析服务器宕机原因很多,资源不足.应用.硬件.系统内核bug等,以下一个小例子服务器宕机了,首先得知道服务器宕机的时间点,然后分析日志查找原因 1.last reboot 此命令可以查看主机起来的时间,不是宕机的时间 reboot system boot 2.4.21-27.ELsmp Mon Sep 16 02:28 (07:02) //这个是主机起来的时间 2.sar -u -f /var/log/sa/sa16 |more 查看历史cpu情况 01…

linux 双Redis + keepalived 主从复制+宕机自主切换

主要核心思想,如果master 和 salve 全部存活的情况,VIP就漂移到 master.读写都从master操作,如果master宕机,VIP就会漂移到salve,并将之前的salve切换为master,当宕机的master可以继续服务的时候,首先会从salve同步数据,然后VIP漂移到master服务器上面,持续提供服务. 环境准备: master:redis 19020:redis 19021:keepalived:ip 192.168.28.139 slave :redis 1902…

Hadoop 服务SYS CPU过高导致宕机问题

最近某hadoop集群多次出现机器宕机,现象为瞬间机器的sys cpu增长至100%,机器无法登录.只能硬件重启,ganglia cpu信息如下: 首先怀疑有用户启动了比较奇葩的job,导致不合理的系统调用出现的问题.随后加了ps及pidstat信息收集job信息(公共集群蛋疼的地方),然后出现问题的时候,各类脚本已经无法工作, 一直没有抓到现场. 终于在某一次看到一台机器sys 瞬间增长,且机器还能登录.立马查看现场,发现竟然元凶是datanode:datanode一个进程占用cpu 1600…

解Bug之路-记一次对端机器宕机后的tcp行为

解Bug之路-记一次对端机器宕机后的tcp行为前言机器一般过质保之后,就会因为各种各样的问题而宕机.而这一次的宕机,让笔者观察到了平常观察不到的tcp在对端宕机情况下的行为.经过详细跟踪分析原因之后,发现可以通过调整内核tcp参数来减少宕机造成的影响. Bug现场笔者所在的公司用某个中间件的古老版本做消息转发,此中间件在线上运行有些年头了,大约刚开始部署的时候机器还是全新的,现在都已经过保了.机器的宕机导致了一些诡异的现象.如下图所示: 在中间件所在机器宕机之后,出现了调用中间件超时的现象…