1.硬件问题

  1)硬盘:查看/var/log/daemon, kern日志,smartctl测试,EUD

  2)PSU: 查看LCD报警,/var/log/ltm,EUD等

  3)内存:可能导致设备突然重启或无法启动,查看console日志等

  4)其他:日志,EUD等

2.软件、告警、网络等问题

  1)重启,切换,进程重启等,可以查看进程状态(bigstart status) ,日志/var/log/ltm及tmm等。

  2)网络,业务问题一定要抓取Tcpdump。

3.一般故障现场需要收集的信息

  1)抓包文件:

  使用tcpdump在F5上抓包,如果有可能在backend server/client machine同时抓包或同时在浏览器运行httpwatch,抓包命令如下:

  #tcpdump–nni0.0:nnn –s0 –w /var/tmp/xxxx.cap host <client IP> or host <VIP> or host <pool member IP 1> or host <pool member IP2>

  *由于F5采用的是full-proxy模式,抓客户IP和VIP只能抓到客户端的traffic,不能抓到server端的,请进行抓包时多加考虑,添加合适的IP地址

  *可以添加端口号或协议名抓取特定的数据包

  *可以加-c 抓取一定数量的包,针对业务流量大的情况下

  *如果抓包文件是关于ssl流量的,请用ssldump命令在F5上解开tcpdump,解成明文,然后将解密的明文和tcpdump一起提交给support,便于查看:

  抓取qkview:qkview尽量在故障的时候抓取,重启之后抓取的qkview十分干净,几乎看不出来任何信息。命令如下:

  # qkview, then take out $HOSTNAME.tech.outfrom /var/tmp/

  抓取log日志,这个一定要抓取,qkview中的log不全。命令如下:

  # tar zcvf/var/tmp/$HOSTNAME-logs.tar.gz /var/log/*, then take out $HOSTNAME-logs.tar.gz from /var/tmp/

  抓取RRD data tarball:

  # tar zcvf/var/tmp/$HOSTNAME-rrd.tar.gz /var/rrd/*, then take out $HOSTNAME-rdd.tar.gz from /var/tmp/

  抓取SCCP log tarball:

  # sshsccp"tar czvf-/var/log/" > /var/tmp/$HOSTNAME-sccp-logs.tar.gz, then take out $HOSTNAME-sccp-logs.tar.gz from /var/tmp/

  2) 抓取故障截图,在客户端是什么表现?网页打不开?服务能否登录?客户收到了什么样的报错信息?

  3) 如果怀疑硬件问题,尽快安排时间做EUD。运行EUD的时候请拔下所有的网线,连好console,留存console output,和EUD report一起提交给support以节省时间。

4.1)两台F5设备均为ACTIVE状态

  不对业务造成影响,但存在隐患

  处理方案:

  1.确认两台active状态的F5设备中,哪一台是当前在用的,通过以下两种方式进行确认,正常情况下,因为冗余连接失效,当前在用的F5设备应该是原先备用的那一台。

  1)使用https登录到两台F5设备的shared ip,查看是哪一台设备;

  2)在核心交换机上查看arp表中,以cisco交换机命令为例,show ip arp“shared ip”,确认对应的是哪一台F5设备的MAC地址。

  3)检查心跳线连接,排除由于心跳线松动造成冗余连接失败的情况。

  4)心跳线连接恢复正常后,对当前处在备用状态的F5设备进行重启操作(应该是原先主用的那台F5设备)。这时网络中会恢复为只有一台主用F5设备的情况(重启备机不会影响业务)。

 2)主用F5设备发生故障

  具体现象:主用F5上所有业务受到影响。

  影响范围:该套F5上所有业务。

  处理方案:

  1、行进行主备切换,检测是否切换成功。

  2、如果失败,则通过下电方式关闭主用故障F5。

  3、SSH方式登陆备机,判断备机状态是否已经变为active。

 3)两台F5设备同时出现故障

  具体现象:两台F5设备同时不可用,该套F5上所有业务受到影响。

  影响范围:该套F5上所有业务。

  处理方案:

  1、强制切换,关闭原先主用的F5设备,检测是否切换成功。

  2、如果仍然故障,则关闭原先备用的F5设备,下电重启原先主用设备后,检测系统状态。

  3、仍不能恢复正常的话,采用冷备设备作为应急。

 4)客户端异常行为导致F5性能容量耗尽

  具体现象:主用F5设备出现CPU或内存利用率持续超警戒阀值(警戒阀值的具体值可根据该套F5所承载的应用数量及性能状况等因素来设定)。

  网络部监控到F5产生如下告警:Inetport exhaustion on X.X.X.X to A.B.C.D:X (proto 6)。

  安全部监控到分行某个客户端X.X.X.X向此套F5设备上的某个访问地址A.B.C.D大量发异常数据包。

  影响范围:该套F5上所有业务。

  处理方案:

  1、确认客户端X.X.X.X是否与此套F5设备上的某个访问地址A.B.C.D大量建立连接。

  2. 登录相应与F5互联的交换机,将客户端X.X.X.X进行隔离

  3. 通过命令行:top或网管proviso系统确认此台F5设备性能容量是否恢复正常(CPU及内存利用率均处于30%以下)。

 5)F5并发连接数超阀值

  具体现象:网络部监控发现F5并发连接数超阀值,且持续时间较长。

  影响范围:该套F5上业务均受到不同程度影响。

  处理方案:

  1、HTTPS方式登陆F5,依次点击“Virtual Server”->“Statistics”,确认当前访问量最高的3个应用;

  

  2、临时规避方法为在F5上限制这3个应用的并发连接数,由于会影响到正常访问,需征求相关部门意见;

  3、登陆相关F5,进入相应Virtual Server,临时将connection limit设置为XXX(一般为服务器台数*100),待F5并发连接数恢复正常后,再商开发中心、应用部门逐步调大connection limit限制;

  4、网络尽快确定方案,利用备机,完成F5扩容,彻底解决F5并发连接数高对设备造成冲击,届时再取消connection limit限制。

  

f5故障排除的更多相关文章

  1. 理解 OpenStack + Ceph (7): Ceph 的基本操作和常见故障排除方法

    本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...

  2. 细化如何安装LNMP + Zabbix 监控安装文档以及故障排除

    1.LNMP所需安装包: 上传如下软件包到/soft目录中 mysql- (centos6. 64位自带)也可根据版本自行挑选,前提你了解这个版本 pcre-8.36.tar.gz nginx-.ta ...

  3. 第十篇 Replication:故障排除

    本篇文章是SQL Server Replication系列的第十篇,详细内容请参考原文. 复制故障排除是一项艰巨的任务.在任何复制设置中,都涉及到很多移动部件,而可用的工具并不总是很容易识别问题.Th ...

  4. 《DevOps故障排除:Linux服务器运维最佳实践》读书笔记

    首先,这本书是Linux.CN赠送的,多谢啦~ http://linux.cn/thread-12733-1-1.html http://linux.cn/thread-12754-1-1.html ...

  5. 利用Ring Buffer在SQL Server 2008中进行连接故障排除

    原文:利用Ring Buffer在SQL Server 2008中进行连接故障排除 出自:http://blogs.msdn.com/b/apgcdsd/archive/2011/11/21/ring ...

  6. JVMTI 中间JNI系列功能,线程安全和故障排除技巧

    JVMTI 中间JNI系列功能,线程安全和故障排除技巧 jni functions 在使用 JVMTI 的过程中,有一大系列的函数是在 JVMTI 的文档中 没有提及的,但在实际使用却是很实用的. 这 ...

  7. android 布局页面文件出错故障排除Exception raised during rendering: java.lang.System.arraycopy([CI[CII)V

    今天在看布局文件的时候出现 android 布局页面文件出错故障排除Exception raised during rendering: java.lang.System.arraycopy([CI[ ...

  8. Linux系统之TroubleShooting(故障排除)(转)

    尽管Linux系统非常强大,稳定,但是我们在使用过程当中,如果人为操作不当,仍然会影响系统,甚至可能使得系统无法开机,无法运行服务等等各种问题.那么这篇博文就总结一下一些常见的故障排除方法,但是不可能 ...

  9. SSIS 调试和故障排除

    SSIS内置的调试工具是非常完备的,主要是设置断点和查看变量值,这是在Package的设计阶段可以使用的工具,在Package部署到服务器之后,用户还可以使用事件处理程序以实现Package出错的自我 ...

随机推荐

  1. Git 全局配置查看修改

    查看 git config --list git config --global --list 新增 git config --global user.emal=123 删除 git config - ...

  2. vc/vs开发的应用程序添加dump崩溃日志<转>

    原贴地址:https://blog.csdn.net/wangkui1331/article/details/78029940 vc/vs开发的应用程序出现崩溃的时候,由于没有任何记录,导致开发人员很 ...

  3. vue:在路由跳转中使用拦截器

    1:首先在路由对象中的某一个具体的路由对象加这样一个属性 meta: {  requireAuth:true  } 2:然后在main.js中添加这段代码 router.beforeEach((to, ...

  4. 腾讯助理PHP开发工程师外包岗面经

    校招错过腾讯了,在社招上看到腾讯有招外包岗,要求比正式岗低,于是抱着试一试的心态投了简历,没一会就收到了笔试题,还算简单. 第二天收到面试官的面试邀请,然后去面试了…… 腾讯里面真是漂亮,光是看装潢就 ...

  5. JavaScript 从定义到执行,你应该知道的那些事

    JavaScript从定义到执行,JS引擎在实现层做了很多初始化工作,因此在学习JS引擎工作机制之前,我们需要引入几个相关的概念:执行环境栈.执行环境.全局对象.变量对象.活动对象.作用域和作用域链等 ...

  6. 23.网络.md

    目录 1.基本概念 2.常用函数 3.端口 4.协议 4.1.2代码步骤 4.1.3UDPDemo 4.1.4通信格式 4.1.5 群发Demo: 4.1.6丢失数据的情况 4.2TCP 4.2.1三 ...

  7. python3编译安装

    linux下配置安装python3一.首先,官网下载python3的所需版本.wget https://www.python.org/ftp/python/3.6.0/Python-3.6.0.tgz ...

  8. SQL数据库优化

    1.对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...

  9. Java中的BigDecimal类精度问题

    bigdecimal 能保证精度的原理是:BigDecimal的解决方案就是,不使用二进制,而是使用十进制(BigInteger)+小数点位置(scale)来表示小数,就是把所有的小数变成整数,记录小 ...

  10. MFC笔记1

    1.在对话框文档中定义两个定时器,每间隔5秒弹出一个消息框提示“定时器1”,每隔5秒弹出一个消息框提示“定时器2” UINT ID_TIMER1 = 1 , ID_TIMER2 = 2;   //设置 ...