20170413B端业务访问故障排查思路

【20170413B端业务访问故障排查思路】的更多相关文章

20170413B端业务访问故障排查思路

现象: 1.全国用户电视端页面无法显示,刷不出版面. 2.后端服务无法打开,报错,504,502 显示服务器端业务故障超时. 3.其他业务也出现缓慢情况,并不严重. 排查: 1.系统服务排查,常规负载检查,apache配置,本地curl测试,查看apache进程状态被挂起,发现系统本地访问80端口不通,重启服务无效~ 2.mysql 数据库未见明显报错异常,刷页面到504页面应该还没到bd访问,排除数据库问题 3.从多个客户traceroute我们域名来检测下网络,结果都不通.. 怀疑…

NO11 SSH故障排查思路和netstat命令

本章知识相关考试:1.企业场景面试题:Linux系统如何优化?2.企业场景面试题:SSH服务连不上,如何排查?记住回答技巧: 1 ping 2 telnet 客户端ssh工具:SecureCRT,xshell,Putty .服务端ssh服务:进程名:sshd,openssh,openssl . SSH故障排查思路:1.第一步:物理链路是否有问题,比喻为“高速路是否修通”?(客户端执行)ping ip 排查客户端到服务端线路问题,ping是常用的网络连通性检查工具.trac…

超长可视化指南！带你理清K8S部署的故障排查思路，让bug无处遁形

本文将帮助你厘清在Kubernetes中调试 deployment的思路.下图是完整的故障排查思路,如果你想获得更清晰的图片,请在公众号后台(RancherLabs)回复"troubleshooting". 当你希望在Kubernetes中部署一个应用程序,你通常需要定义三个组件: Deployment--这是创建名为Pods的应用程序副本的方法 Serivce--内部负载均衡器,将流量路由到Pods Ingress--可以描述流量如何从集群外部流向Service 接下来,我们通过图片…

Java进程故障排查思路及步骤

故障场景 Java进程出现问题,通常表现出如下现象: Web应用响应时间长/超时,甚至不响应 CPU使用率极高/低,频繁出现Full GC,甚至OutOfMemoryError 响应时间长.超时,甚至不响应,这是最直观的表现:而CPU使用率极高或极低,频繁出现Full GC,这些需要借助系统日志或者监控辅助发现. 原因分析针对响应时间长.超时,甚至不响应,这是一个综合性的问题导致的,可能并不单纯是应用程序本身的问题,如果后端还接了数据存储系统,除了排查应用程序本身的问题之外,还需要排查应用所依…

Linux运维故障排查思路

linux系统故障网络问题 linux系统无响应 linux系统无法启动 linux系统故障处理思路 1.重视报错信息,一般情况下此提示基本定位了问题的所在 2.查阅日志文件,系统日志和应用日志 3.分析.定位问题 4.动手解决网络问题处理思路 1.网络硬件问题.网线.网卡.路由器.交换机等是否正常工作. 2.网卡驱动是否正常加载.网卡ip设置是否正确,系统路由是否正确. 3.检查局域网之间的通信是否正常. 4.检查dns是否设定正确.可从/etc/resolv.conf./etc/host…

lnmp环境网页访问慢排查思路

1.首先看每个服务器的负载情况 2.若各个服务器负载不高首先查看是不是负载均衡服务器问题相接访问web服务看是否慢,若也慢则查看是不是访问动态页面慢,创建一个静态页面访问试试,若不慢则是动态页面问题则可能是数据库问题,登入数据库show full processlist; explain select 语句…

Rsync 12种故障排查及思路

Rsync 故障排查整理 Rsync服务常见问题汇总讲解: ============================================================================================== 1 客户端的错误现象:No route to host rsync服务端开启的iptables防火墙 [root@nfs01 tmp]# rsync -avz /etc/hosts rsync_backup@172.16.1.41::backup r…

技术分享 | Update更新慢、死锁等问题的排查思路分享

欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答一.简介在开始排错之前我们需要知道 Update 在 MySQL 中的生命周期是什么,MySQL 如何执行一个事务的. 理解了如何执行,我们才知道如何去排查故障. 二.Update 生命周期 Server 层阶段 2.1 连接器客户端发起一个 TCP 请求后,MySQL Server 端会负责通信协议处理.线程处理.账号认证.安全检查. 2.2 分析器 MySQL Serv…

JVM 线上故障排查基本操作

# 前言对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢? 首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后进行总结,防止下次再次出现. 今天的文章,就如我们的题目一样,讲的是基本操作,也就是一些排查线上问题的基本方法.为什么这么说呢?因为线上问题千奇百怪,就算是身经百战的专家也会遇到棘手的问题,因此不可能在一篇文章…

windows应急响应入侵排查思路

0x00 前言当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 常见的应急响应事件分类: web入侵:网页挂马.主页篡改.Webshell 系统入侵:病毒木马.勒索软件.远控后门网络攻击:DDOS攻击.DNS劫持.ARP欺骗针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Window服务器入…

Linux 服务器性能问题排查思路

一个基于 Linux 操作系统的服务器运行的同时,也会表征出各种各样参数信息.通常来说运维人员.系统管理员会对这些数据会极为敏感,但是这些参数对于开发者来说也十分重要,尤其当你的程序非正常工作的时候,这些蛛丝马迹往往会帮助快速定位跟踪问题. 这里只是一些简单的工具查看系统的相关参数,当然很多工具也是通过分析加工 /proc./sys 下的数据来工作的,而那些更加细致.专业的性能监测和调优,可能还需要更加专业的工具(perf.systemtap 等)和技术才能完成哦. 毕竟来说,系统性能监控本身就…

1.Windows入侵排查思路

0x00 前言当企业发生黑客入侵.系统崩溃或其它影响业务正常运行的安全事件时,急需第一时间进行处理,使企业的网络信息系统在最短时间内恢复正常工作,进一步查找入侵来源,还原入侵事故过程,同时给出解决方案与防范措施,为企业挽回或减少经济损失. 常见的应急响应事件分类: web入侵:网页挂马.主页篡改.Webshell 系统入侵:病毒木马.勒索软件.远控后门网络攻击:DDOS攻击.DNS劫持.ARP欺骗针对常见的攻击事件,结合工作中应急响应事件分析和解决的方法,总结了一些Window服务器入侵排…

Java程序线上故障排查

目录一.Linux 内存和cpu 网络磁盘 /proc文件系统二.JVM Java堆和垃圾收集器 gc日志分析 JVMTI介绍 Attach机制 java自带工具三.三方工具 jprofile arthas (类似btrace的工具) gceasy 四.实际案例连接泄漏 String拼接导致内存溢出堆内存占用过大 CPU占用高问题 aerospike线程阻塞导致内存溢出问题问题整体思路:全局观,先从系统层面入手,大致定位方向(内存,cpu,磁盘,网络),然后再去分析具体的进程.…

Linux入侵类问题排查思路

深入分析,查找入侵原因一.检查隐藏帐户及弱口令检查服务器系统及应用帐户是否存在弱口令: 检查说明:检查管理员帐户.数据库帐户.MySQL 帐户.tomcat 帐户.网站后台管理员帐户等密码设置是否较为简单,简单的密码很容易被黑客破解. 解决方法:以管理员权限登录系统或应用程序后台,修改为复杂的密码. 风险性:高. 使用 last 命令查看下服务器近期登录的帐户记录,确认是否有可疑 IP 登录过机器: 检查说明:攻击者或者恶意软件往往会往系统中注入隐藏的系统帐户实施提权或其他破坏性的攻击.…

JVM 线上故障排查基本操作--CPU飙高

JVM 线上故障排查基本操作 CPU 飚高线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后找到那个进程中的 “问题线程”,最后根据线程堆栈信息找到问题代码.最后对代码进行排查. 如何操作呢? 通过 top 命令找到 CPU 消耗最高的进程,并记住进程 ID. 再次通过 top -Hp [进程 ID] 找到 CPU 消耗最高的线程 ID,并记住线程 ID. 通过 JDK 提供的 jstac…

JVM 线上故障排查基本操作 (转)

前言对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何解决呢? 首先,出现问题,肯定要先定位问题所在,然后分析问题原因,再然后解决问题,最后进行总结,防止下次再次出现. 本文的排查环境是 Linux. CPU 飚高问题:线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有…

JAVA 线上故障排查套路，从 CPU、磁盘、内存、网络到GC 一条龙！

线上故障主要会包括cpu.磁盘.内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍. 同时例如jstack.jmap等工具也是不囿于一个方面的问题的,基本上出问题就是df.free.top 三连,然后依次jstack.jmap伺候,具体问题具体分析即可. CPU 一般来讲我们首先会排查cpu方面的问题.cpu异常往往还是比较好定位的.原因包括业务逻辑问题(死循环).频繁gc以及上下文切换过多.而最常见的往往是业务逻辑(或者框架逻辑)导致的,可以使…

JVM 线上故障排查

JVM 线上故障排查 Linux 1.1 CPU 1.2 内存 1.3 存储 1.4 网络一.CPU 飚高寻找原因二.内存问题排查三.一般排查问题的方法四.应用场景举例 4.1 怎么查看某个Java进程里面占用CPU最高的一个线程具体信息? 4.2 统计每种网络状态的数量 4.3 怎么查看哪个进程在用swap 原文地址: 微信公众号: 莫那鲁道芋道源码:JVM 线上故障排查基本操作掘金:小姐姐味道:作为高级Java,你应该了解的Linux知识 Linux,关注的是四个元素:内存,c…

JAVA线上故障排查手册-(推荐)

参考:https://fredal.xin/java-error-check?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io 线上故障主要会包括cpu.磁盘.内存以及网络问题,而大多数故障可能会包含不止一个层面的问题,所以进行排查时候尽量四个方面依次排查一遍.同时例如jstack.jmap等工具也是不囿于一个方面的问题的,基本上出问题就是df.free.top 三连,然后依次jstack.jmap伺候,具体问题具体分析…

SQL Server 2008性能故障排查（二）——CPU

原文:SQL Server 2008性能故障排查(二)--CPU 承接上一篇:SQL Server 2008性能故障排查(一)--概论说明一下,CSDN的博客编辑非常不人性化,我在word里面都排好了版,贴上来就乱得不成样了.建议CSDN改进这部分.也请大家关注内容不要关注排版.同时在翻译的过程中本人也整理了一次思路,所以还似乎非常愿意翻译,虽然有点自娱自乐,但是分享给大家也是件好事 CPU 瓶颈: CPU瓶颈可能因为某个负载所需的硬件资源不足而引起.但是过多的CPU使用通常可以通过查询优化(…

[转] Linux运维常见故障排查和处理的技巧汇总

作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报. 下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助? 第一:常见问题解决集锦 1.shell脚本不执行问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错.我看了下,脚本…

Java线上问题排查思路及Linux常用问题分析命令学习

前言之前线上有过一两次OOM的问题,但是每次定位问题都有点手足无措的感觉,刚好利用星期天,以测试环境为模版来学习一下Linux常用的几个排查问题的命令. 也可以帮助自己在以后的工作中快速的排查线上问题. jmap命令 jmap -heap pid 输出当前进程 JVM 堆新生代.老年代.持久代等请情况,GC 使用的算法等信息 jmap -histo:live {pid} | head -n 10 输出当前进程内存中所有对象包含的大小 jmap -dump:format=b,file=/usr/…

Linux运维常见故障排查和处理的33个技巧汇总

作为linux运维,多多少少会碰见这样那样的问题或故障,从中总结经验,查找问题,汇总并分析故障的原因,这是一个Linux运维工程师良好的习惯.每一次技术的突破,都经历着苦闷,伴随着快乐,可我们还是执着的继续努力,从中也积累了更多的经验,这就是实践给予我们的丰厚回报. 下面汇总了我做项目过程可能出现的故障及解决方法,看看是否与你有共鸣,并对你有帮助? 第一:常见问题解决集锦 1.shell脚本不执行问题:某天研发某同事找我说帮他看看他写的shell脚本,死活不执行,报错.我看了下,脚本…

Java进程故障排查

故障分析 # 导致系统不可用情况(频率较大): 1)代码中某个位置读取数据量较大,导致系统内存耗尽,进而出现Full GC次数过多,系统缓慢: 2)代码中有比较消耗CPU的操作,导致CPU过高,系统运行缓慢: # 导致某功能运行缓慢(不至于导致系统不可用): 3)代码某个位置有阻塞性的操作,导致调用整体比较耗时,但出现比较随机: 4)某线程由于某种原因进入WAITTING状态,此时该功能整体不可用,但无法复现: 5)由于锁使用不当,导致多个线程进入死锁状态,导致系统整体比较缓慢. # 说明对于…

golang 服务诡异499、504网络故障排查

事故经过排查总结事故经过 11-01 12:00 中午午饭期间,手机突然收到业务网关非200异常报警,平时也会有一些少量499或者网络抖动问题触发报警,但是很快就会恢复(目前配置的报警阈值是5%,阈值跟当时的采样窗口qps有直接关系). 报警当时非200占比已经过10%并且在持续升高,根据历史规律应该很快就会恢复,我们稍微观察了几分钟(一边吃着很香的饺子一边看着手机),但是过了几分钟故障没有恢复而且占比升高了突破50%,故障逐渐升级(故障如果不在固定时间内解决会逐渐升级,故障群每次升级都会…

【故障公告】再次遭遇SQL语句执行超时引发网站首页访问故障

非常抱歉,昨天 18:40~19:10 再次遭遇上次遇到的 SQL 语句执行超时引发的网站首页访问故障,由此您带来麻烦,请您谅解. 上次故障详见故障公告,上次排查下来以为是 SQL Server 参数嗅探问题引起的,但在引起参数嗅探的漏洞被修复后今天再次出现故障说明上次的判断是错误的. 今天出现故障时的表现与上次一样,唯一不同的地方是这次比上次更糟糕,即使主备切换也无法恢复. 后来我们从 SQL 语句本身下手,给查询首页博文列表的 SQL 语句添加了时间条件才恢复正常. , getdate())…

1个工具，助你提升K8S故障排查效率！

Kubernetes的故障排查一直困扰众多运维团队或DevOps,除了Kubernetes本身的复杂性之外,还有Kubernetes的工作负载是动态的原因.本文将介绍1个工具可以帮助你可视化K8S的网络和流量,以提升你的故障排查效率. 本文来自Rancher Labs 作为领先的多集群Kubernetes管理平台,Rancher使运维团队可以部署.管理和保护企业的Kubernetes集群.Rancher还为用户提供了一系列容器网络接口(CNI)选项可供选择,包括开源项目Calico(https:…