f5故障排除
1.硬件问题
1)硬盘:查看/var/log/daemon, kern日志,smartctl测试,EUD
2)PSU: 查看LCD报警,/var/log/ltm,EUD等
3)内存:可能导致设备突然重启或无法启动,查看console日志等
4)其他:日志,EUD等
2.软件、告警、网络等问题
1)重启,切换,进程重启等,可以查看进程状态(bigstart status) ,日志/var/log/ltm及tmm等。
2)网络,业务问题一定要抓取Tcpdump。
3.一般故障现场需要收集的信息
1)抓包文件:
使用tcpdump在F5上抓包,如果有可能在backend server/client machine同时抓包或同时在浏览器运行httpwatch,抓包命令如下:
#tcpdump–nni0.0:nnn –s0 –w /var/tmp/xxxx.cap host <client IP> or host <VIP> or host <pool member IP 1> or host <pool member IP2>
*由于F5采用的是full-proxy模式,抓客户IP和VIP只能抓到客户端的traffic,不能抓到server端的,请进行抓包时多加考虑,添加合适的IP地址
*可以添加端口号或协议名抓取特定的数据包
*可以加-c 抓取一定数量的包,针对业务流量大的情况下
*如果抓包文件是关于ssl流量的,请用ssldump命令在F5上解开tcpdump,解成明文,然后将解密的明文和tcpdump一起提交给support,便于查看:
抓取qkview:qkview尽量在故障的时候抓取,重启之后抓取的qkview十分干净,几乎看不出来任何信息。命令如下:
# qkview, then take out $HOSTNAME.tech.outfrom /var/tmp/
抓取log日志,这个一定要抓取,qkview中的log不全。命令如下:
# tar zcvf/var/tmp/$HOSTNAME-logs.tar.gz /var/log/*, then take out $HOSTNAME-logs.tar.gz from /var/tmp/
抓取RRD data tarball:
# tar zcvf/var/tmp/$HOSTNAME-rrd.tar.gz /var/rrd/*, then take out $HOSTNAME-rdd.tar.gz from /var/tmp/
抓取SCCP log tarball:
# sshsccp"tar czvf-/var/log/" > /var/tmp/$HOSTNAME-sccp-logs.tar.gz, then take out $HOSTNAME-sccp-logs.tar.gz from /var/tmp/
2) 抓取故障截图,在客户端是什么表现?网页打不开?服务能否登录?客户收到了什么样的报错信息?
3) 如果怀疑硬件问题,尽快安排时间做EUD。运行EUD的时候请拔下所有的网线,连好console,留存console output,和EUD report一起提交给support以节省时间。
4.1)两台F5设备均为ACTIVE状态
不对业务造成影响,但存在隐患
处理方案:
1.确认两台active状态的F5设备中,哪一台是当前在用的,通过以下两种方式进行确认,正常情况下,因为冗余连接失效,当前在用的F5设备应该是原先备用的那一台。
1)使用https登录到两台F5设备的shared ip,查看是哪一台设备;
2)在核心交换机上查看arp表中,以cisco交换机命令为例,show ip arp“shared ip”,确认对应的是哪一台F5设备的MAC地址。
3)检查心跳线连接,排除由于心跳线松动造成冗余连接失败的情况。
4)心跳线连接恢复正常后,对当前处在备用状态的F5设备进行重启操作(应该是原先主用的那台F5设备)。这时网络中会恢复为只有一台主用F5设备的情况(重启备机不会影响业务)。
2)主用F5设备发生故障
具体现象:主用F5上所有业务受到影响。
影响范围:该套F5上所有业务。
处理方案:
1、行进行主备切换,检测是否切换成功。
2、如果失败,则通过下电方式关闭主用故障F5。
3、SSH方式登陆备机,判断备机状态是否已经变为active。
3)两台F5设备同时出现故障
具体现象:两台F5设备同时不可用,该套F5上所有业务受到影响。
影响范围:该套F5上所有业务。
处理方案:
1、强制切换,关闭原先主用的F5设备,检测是否切换成功。
2、如果仍然故障,则关闭原先备用的F5设备,下电重启原先主用设备后,检测系统状态。
3、仍不能恢复正常的话,采用冷备设备作为应急。
4)客户端异常行为导致F5性能容量耗尽
具体现象:主用F5设备出现CPU或内存利用率持续超警戒阀值(警戒阀值的具体值可根据该套F5所承载的应用数量及性能状况等因素来设定)。
网络部监控到F5产生如下告警:Inetport exhaustion on X.X.X.X to A.B.C.D:X (proto 6)。
安全部监控到分行某个客户端X.X.X.X向此套F5设备上的某个访问地址A.B.C.D大量发异常数据包。
影响范围:该套F5上所有业务。
处理方案:
1、确认客户端X.X.X.X是否与此套F5设备上的某个访问地址A.B.C.D大量建立连接。
2. 登录相应与F5互联的交换机,将客户端X.X.X.X进行隔离
3. 通过命令行:top或网管proviso系统确认此台F5设备性能容量是否恢复正常(CPU及内存利用率均处于30%以下)。
5)F5并发连接数超阀值
具体现象:网络部监控发现F5并发连接数超阀值,且持续时间较长。
影响范围:该套F5上业务均受到不同程度影响。
处理方案:
1、HTTPS方式登陆F5,依次点击“Virtual Server”->“Statistics”,确认当前访问量最高的3个应用;
2、临时规避方法为在F5上限制这3个应用的并发连接数,由于会影响到正常访问,需征求相关部门意见;
3、登陆相关F5,进入相应Virtual Server,临时将connection limit设置为XXX(一般为服务器台数*100),待F5并发连接数恢复正常后,再商开发中心、应用部门逐步调大connection limit限制;
4、网络尽快确定方案,利用备机,完成F5扩容,彻底解决F5并发连接数高对设备造成冲击,届时再取消connection limit限制。
f5故障排除的更多相关文章
- 理解 OpenStack + Ceph (7): Ceph 的基本操作和常见故障排除方法
本系列文章会深入研究 Ceph 以及 Ceph 和 OpenStack 的集成: (1)安装和部署 (2)Ceph RBD 接口和工具 (3)Ceph 物理和逻辑结构 (4)Ceph 的基础数据结构 ...
- 细化如何安装LNMP + Zabbix 监控安装文档以及故障排除
1.LNMP所需安装包: 上传如下软件包到/soft目录中 mysql- (centos6. 64位自带)也可根据版本自行挑选,前提你了解这个版本 pcre-8.36.tar.gz nginx-.ta ...
- 第十篇 Replication:故障排除
本篇文章是SQL Server Replication系列的第十篇,详细内容请参考原文. 复制故障排除是一项艰巨的任务.在任何复制设置中,都涉及到很多移动部件,而可用的工具并不总是很容易识别问题.Th ...
- 《DevOps故障排除:Linux服务器运维最佳实践》读书笔记
首先,这本书是Linux.CN赠送的,多谢啦~ http://linux.cn/thread-12733-1-1.html http://linux.cn/thread-12754-1-1.html ...
- 利用Ring Buffer在SQL Server 2008中进行连接故障排除
原文:利用Ring Buffer在SQL Server 2008中进行连接故障排除 出自:http://blogs.msdn.com/b/apgcdsd/archive/2011/11/21/ring ...
- JVMTI 中间JNI系列功能,线程安全和故障排除技巧
JVMTI 中间JNI系列功能,线程安全和故障排除技巧 jni functions 在使用 JVMTI 的过程中,有一大系列的函数是在 JVMTI 的文档中 没有提及的,但在实际使用却是很实用的. 这 ...
- android 布局页面文件出错故障排除Exception raised during rendering: java.lang.System.arraycopy([CI[CII)V
今天在看布局文件的时候出现 android 布局页面文件出错故障排除Exception raised during rendering: java.lang.System.arraycopy([CI[ ...
- Linux系统之TroubleShooting(故障排除)(转)
尽管Linux系统非常强大,稳定,但是我们在使用过程当中,如果人为操作不当,仍然会影响系统,甚至可能使得系统无法开机,无法运行服务等等各种问题.那么这篇博文就总结一下一些常见的故障排除方法,但是不可能 ...
- SSIS 调试和故障排除
SSIS内置的调试工具是非常完备的,主要是设置断点和查看变量值,这是在Package的设计阶段可以使用的工具,在Package部署到服务器之后,用户还可以使用事件处理程序以实现Package出错的自我 ...
随机推荐
- Delphi处理TWebBrowser的Close事件
当TWebBrowser控件访问的 Web 页上的脚本调用window.close方法时,TWebBrowser控件可能会在窗体中消失.我们的程序应该对此作出反应,否则再次访问TWebBrowser控 ...
- sse 与 socket 摘录-推送常用技术
推送技术常用的集中实现的实现方式 01.短连接轮询 02.长轮询 03.iframe流: 04.WebSocket 05.Server-sent Events(sse)
- 批量杀死多个进程 linux kill
批量杀进程 -| “grep -v grep”是在列出的进程中去除含有关键字“grep”的进程. “cut -c 9-15”是截取输入行的第9个字符到第15个字符,而这正好是进程号PID,也有使用aw ...
- 2018SDIBT_国庆个人第五场
A - ACodeForces 1060A Description Let's call a string a phone number if it has length 11 and fits th ...
- 1.ossutil初步使用
ossutil对应的阿里云参考文档链接地址: https://help.aliyun.com/document_detail/50452.html?spm=a2c4g.11186623.6.1355. ...
- linux 覆盖可执行文件的问题
测试环境是3.10.0 内核. 有一次操作中,发现cp -f A B执行的时候,行为不一样: 当B没被打开,则正常覆盖B. 当B是被打开,但没有被执行,则能覆盖, 当B被打开,且被执行,则不能直接覆盖 ...
- English Pronunciation Analysis | Advanced English Conversation
English Pronunciation Analysis | Advanced English Conversation Share Tweet Share Tagged With: Ben Fr ...
- 为什么虚拟DOM更优胜一筹
注意: 虚拟DOM只是实现MVVM的一种方案,或者说是视图更新的一种策略.没有虚拟DOM比MVVM更好一说. 我们回顾传统MVC框架,如backbone,它是将某个模板编译成模板函数,需要更新时,是自 ...
- vue中嵌套页面(iframe)
vue中嵌套iframe,将要嵌套的文件放在static下面.(要将打包文件整体放在statici里,我的文件名是canvas) src可以使用相对路径,也可使用服务器根路径http:localhos ...
- mybatis中事务简单使用
一步: 事务只用在service层方法上加 @Transactional(propagation = Propagation.REQUIRED) :发现如果没有它,增加执行-->1/ ...