今天早上刚到公司,就发现研发环境的机器连不上了。

  公司研发环境的部署比较简单,物理机上装VMware Esxi 6 ,然后在esxi上装虚机。

  检查发现:esxi ping不通,客户端也连不上;物理机远程管理卡ping不通,ipmi管理客户端也连不上。

  处理方法:五年前的机器了,远程管理卡都连不上了,一般就是服务器硬件出问题了。不去管它了,直接找别的机器再搭一套研发环境就是了。新研发环境机器数量用途不变,只是给四台机器换了下ip地址。见下图:

    

  说干就干,装起来,机器装完之后开始部署服务,在部署调试的过程中发现部分机器特别卡,ssh上去之后敲命令都卡,一般都得等十几秒才能缓过来。

  调查过程:

    1、检测esxi物理机性能,未见异常

    2、检测各虚拟机性能,未见异常

    3、因为新的研发环境是两个人一起完成的,检测两个人历史操作记录和配置文件,未见异常

    4、百度 esxi 虚拟机丢包 ,未果

    5、检查同物理机上的原有虚机(物理机上部署新研发环境之前还有8台虚机),原有虚机没有发现丢包现象

    6、写个脚本循环ping新研发环境的各个ip,发现上图中新使用的ip(绿色部分)一个包也不丢

    7、对比试验,新建两台vm 10.12.30.61 和 10.12.30.62 ,进行ping测试,不丢包

    8、给新建的两台vm 更改ip为原来用过的 10.12.30.7 和 10.12.30.8 ,进行测试,发现丢包现象

      

    9、思考:ip冲突?老机器物理机都挂了,vm也连不上了,不可能互相抢ip啊!!!

    10、验证9中的想法,当我循环ping的脚本报告 10.12.30.12 ping 失败的时候,开一个新的ssh会话,快速执行多次 arp -an ,见下图。还真是ip冲突了!!!! 同一个IP地址,两次看到的mac地址不一样。老机器自己恢复了?

      

    11、再次检查老机器 远程管理卡、物理机操作系统、虚机操作系统,依旧都连不上。但问题肯定出在老的机器上

    12、验证11中的想法,由于远程管理卡都连不上了,我人有不在机房,那就只能去交换机上把老机器的接口shutdown了。在交换机上把老机器的接口shutdown后进行ping测试,一切正常,一个包都不丢了。

    13、看来11中的想法是对的,其实也不是阴魂不散,机器宕机后,虽然好多服务都无法使用了,因为没有进行断电操作,有部分基础的服务仍运行在内存中,比如这次宕机后虽然物理机和虚机都ping不通也连不上了,但是还能进行arp应答,也算是比较顽强的了

  总结经验教训:如果物理机被认定发生硬件故障无法继续使用了,一定要进行断电处理,同时也是为了机房其他服务器的安全和稳定

宕机不等于关机,阴魂不散的vm的更多相关文章

  1. VmWare平台Windows Server 2012 无响应宕机

    我们生产服务器都部署在VMware ESXi 5.5平台上,最近大半年的时间,偶尔就会出现操作系统为Windows Servre 2012的服务器出现没有任何响应(unresponsive)的情况,出 ...

  2. Linux宕机最安全的重启方法(你肯定不知道)

    Linux 内核虽然号称“不死族”,几乎不会崩溃或者死机,但是特殊情况下,还是有一定几率会宕机的.因为 Linux 广泛用于生产环境,所以每一次宕机都会引起相当大的损失.本文介绍在它死机至后,一种温柔 ...

  3. Centos7.5调试/etc/sysctl.conf文件导致宕机

    今天安装greenplus数据库,需要调试一个核心文件/etc/sysctl.conf文件,结果导致系统异常宕机,出现的问题就是使用任何命令都不能输出正确的结果,只有这个显示: 不知道是什么原因,ls ...

  4. 祸害阿里云宕机 3 小时的 IO HANG 究竟是个什么鬼?!

    2019年3月3日凌晨,微博炸锅,有网友反映说阿里云疑似出现宕机,华北很多互联网公司受到暴击伤害,APP.网站全部瘫痪,我自己的朋友圈和微信群里也有好友反馈,刚刚从被窝被叫起来去修Bug,结果发现服务 ...

  5. 【JVM】linux上tomcat中部署的web服务,时好时坏,莫名其妙宕机,报错:There is insufficient memory for the Java Runtime Environment to continue.

    =========================================================================================== 环境: linu ...

  6. Elasticsearch宕机问题

    个人博客:https://blog.sharedata.info/ Elasticsearch 突然宕机,每次重启都只生成错误日志报错信息:## There is insufficient memor ...

  7. weblogic宕机crash问题解决分享

    近期比較烦躁.系统频繁出现宕机.weblogic控制台打印出例如以下内容: # Afatal error has been detected by the Java Runtime Environme ...

  8. 支持宕机自动恢复触发一次性或周期性任务执行的组件包首次介绍-easyTask

    easyTask介绍 一个方便触发一次性或周期性任务执行的工具包,支持海量,高并发,高可用,宕机自动恢复任务 使用场景 需要精确到秒的某一时刻触发任务执行.比如订单交易完成24小时后如果客户未评价,则 ...

  9. java调用jni oci接口宕机原因排查

    调用最简单的JNI没有出错,但是涉及到OCI时就会异常退出,分析后基本确定是OCI 11g中的signal所致,参考ora-24550 signo=6 signo=11解决. 但是这个相同的so库直接 ...

随机推荐

  1. Mind Manager X 10 registry backup key under windows XP

    Windows Registry Editor Version 5.00 [HKEY_CURRENT_USER\Software\Mindjet\MindManager\10] [HKEY_CURRE ...

  2. [转帖]关于hostnamectl 命令

    作者:Linux运维 来源:CSDN 原文:https://blog.csdn.net/linuxnews/article/details/51112022 版权声明:本文为博主原创文章,转载请附上博 ...

  3. 好文章之——PHP系列(一)

    注:最近实习的公司是一家做电商企业,后台主要是php开发,好久不怎么接触php的我看了几篇相关文章,提高下对它的认识与理解,发现里面的学习思路还是非常好的,当然也会重新拾一下基础知识啦! 其实自己心中 ...

  4. python之Oracle操作(cx_Oracle)

    python可通过使用cx_Oracle模块对Oracle数据库进行操作.首先,需要下载cx_Oracle模块,下载地址:https://pypi.python.org/pypi/cx_Oracle/ ...

  5. python之查询指定目录下的最新文件

    使用os模块查询指定目录下的最新文件 import os # 输入目录路径,输出最新文件完整路径 def find_new_file(dir): '''查找目录下最新的文件''' file_lists ...

  6. CSS实现水平居中的5种思路

    前面的话 水平居中是经常遇到的问题.看似方法较多,条条大路通罗马.但系统梳理下,其实都围绕着几个思路展开.本文将介绍关于水平居中的5种思路 text-align [思路一]:在父元素中设置text-a ...

  7. 一本通1587【例 3】Windy 数

    1587: [例 3]Windy 数 时间限制: 1000 ms         内存限制: 524288 KB 题目描述 原题来自:SCOI 2009 Windy 定义了一种 Windy 数:不含前 ...

  8. 【题解】ID分配

    题目描述 您正在处理要为每个客户端分配唯一ID的特定系统的后端.但是,系统是分布式的,并且有许多组件,每个组件都必须能够为客户端分配ID.换句话说,您希望每个组件都使用尽可能少的组件之间的通信来分配I ...

  9. php-扩展模块查找下载网址

    http://pecl.php.net/ 在该网页里面输入想要查找的扩展模块名 如: 搜索结果:

  10. Django-website 程序案例系列-18 多表跨表操作优化

    详解Django的 select_related 和 prefetch_related 函数对 QuerySet 查询的优化 在数据库有外键的时候,使用 select_related() 和 pref ...