(上图是数据库连接数监控图) 非常抱歉,今天下午 16:50-17:40 期间,一场龙卷风突袭园子,突增的并发请求狂卷博客站点的 pod,由于风力巨大(70%左右的增量),pod 的 cpu 不堪重负,造成博客站点无法正常访问,由此给您带来麻烦,请您谅解. 在没有龙卷风的一般大风(访问高峰)情况下,博客站点单个 pod 的 cpu 通常消耗在 3-4 核之间,所以我们采用了下面的 pod 资源限制配置: resources: requests: memory: "4Gi" cpu: &…
非常抱歉,今天下午2点左右开始,博客站点突然猛增的巨量请求让k8s集群的节点服务器不堪重负,造成网站无法正常访问,由此给您带来麻烦,请您谅解. 当时k8s集群一共6台node服务器,2台32核64G,2台8核64G,1台8核16G,1台4核6G,博客站点一共跑了19个pod,如果不是突然猛增的巨量请求,可以稳稳撑住. 但是今天下午的请求排山倒海,比昨天还要高(昨天GA统计的UV超过1000万,其中有很多异常请求),服务器CPU们拼尽全力也无法扛住,最终兵败如山倒. 发现故障后,我们开始加服务器,…
非常抱歉,今天下午14:40-15:00左右,web服务器突然雪崩似的出现CPU 100%问题,造成博客站点无法访问(503).由此给您带来很大的麻烦,请您谅解. 在问题出现之前,博客站点运行着5台web服务器,4台4核8G的阿里云-计算型(原独享)sn1系列II-服务器,1台8核8G的阿里云c1型系列I服务器.本来今天下午并不是一周的访问最高峰,这5台服务器绰绰有余.但14:40左右开始,某种未知的情况引起这5台服务器雪崩似的接连地出现CPU 100%.雪上加霜的是,倒下去的服务器没能很快地站…
13:52-14:03,由于访问量突增,博客web服务器全线CPU 100%,造成博客站点不正常访问,由此给您带来麻烦,请您谅解. 为了迎接访问量的增长给web服务器CPU带来的巨大压力,上周我们已经将博客web服务器换成了阿里云独享型服务器. 今天下午故障前,博客站点一共投用了3台4核8G+1台8核8G阿里云服务器. 13:50左右,为了防止4台服务器撑不住,我们使用阿里云的弹性伸缩服务,创建了一个根据CPU占用情况自动增加服务器的“报警任务”. 哪知刚创建完,访问量就突增上去了,负载均衡中有…
今天没有龙卷风(异常的高并发请求),故障却依然出现,问题非常奇怪. 某种异常情况会造成短时间内, k8s 集群中大量 pod (超过60%)因健康检查失败而处于 CrashLoopBackOff 状态,健康检查失败的错误是 connection refused Liveness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: con…
非常抱歉,今天早上 6:37~8:15 期间,由于获取网站首页博文列表的 SQL 语句出现突发的查询超时问题,造成访问网站首页时出现 500 错误,由此给您带来麻烦,请您谅解. 故障的情况是这样的. 故障期间日志中记录了大量下面的错误. 2020-02-03 06:37:24.635 [Error] An unhandled exception has occurred while executing the request. / Microsoft.AspNetCore.Diagnostics…
今天上午11:10,我们又中"奖"了,我们使用的阿里云 RDS 实例(SQL Server 2016 标准版,16核32G)突发出现 CPU 100%,引发全站故障,直到 12:15 才完全恢复,由此给您带来很大的麻烦,请您谅解. 这是我们今年的第3次中"奖",前2次分别发生在 2020-06-24 3:20~8:30 (详见故障公告)与 2020-08-20 20:55~21:14(详见故障公告). 相比前2次,这次中了一个大"奖",发生在访问…
最近,业务增长的很迅猛,对于我们后台这块也是一个不小的挑战,这次遇到的核心业务接口的性能瓶颈,并不是单独的一个问题导致的,而是几个问题揉在一起:我们解决一个之后,发上线,之后发现还有另一个的性能瓶颈问题.这也是我经验不足,导致没能一下子定位解决:而我又对我们后台整个团队有着固执的自尊,不想通过大量水平扩容这种方式挺过压力高峰,导致线上连续几晚都出现了不同程度的问题,肯定对于我们的业务增长是有影响的.这也是我不成熟和要反思的地方.这系列文章主要记录下我们针对这次业务增长,对于我们后台微服务系统做的…
今天上午 9:40 - 11:06 左右,由于阿里云“华东1地域部分负载均衡https访问异常”,造成我们的部分站点(尤其是博客后台)无法正常访问,给您带来了很大的麻烦,请您谅解. 现已恢复正常,如果您还不能正常访问,麻烦您向我们反馈. 阿里云官方故障公告: [阿里云] [负载均衡] [故障通告] 故障简述 : 监控发现于09:40左右,华东1地域部分负载均衡出现https访问不稳定. 故障原因 : 华东1地域负载均衡网络波动导致. 有任何问题,可随时通过工单或服务电话95187联系反馈. [故…
1.云主机被拿去挖矿,cpu暴涨,tcp连接突增 2.现象:top -c 3.然后我再查看pstree进程树 4.查找文件来源 ind  / -name '*suppoie*' 5. 然后删除 suppoie , supsplk,config.json 文件 然后过了一会suppoie进程又起来了,那说明上面删除的文件是生成的文件,不是源文件 6.然后查看abrt文件夹下的文件内容 7.看crontab -e 参考: https://blog.csdn.net/u010938610/articl…