自从博客系统升级 .NET 5.0 之后遇到的诡异故障(一.二.三.四),今天它又出现了,就在前天刚刚故障之后, 就在昨天 .NET 5.0 正式版刚刚发布之后,出现了. 今天晚上我们在 19:30 左右进行了一次发布,发布后特地进行了观察,没有出现故障,但后来在 20:30 左右发现了故障(巧合的是与上次故障是差不多的时间点),在这次故障过程中,我们试遍了之前的所有方法(除了回退 .NET 5.0)都无济于事,在我们几乎绝望之时,我们把目光转向了我们曾经专门"洗白"过的 .NET 5…
2017年2月21日17:34,突然收到阿里云的通知: 您的IP受到攻击流量已超过云盾DDoS基础防护的带宽峰值,服务器的所有访问已被屏蔽,如果35分钟后攻击停止将自动解除否则会延期解除... 紧接着通过这个IP访问博客站点(www.cnblogs.com)的所有用户(绝大多数用户都使用这个IP)都无法访问,我们赶紧进行了dns解析切换,但dns解析需要一定的时间,很多用户都会受影响. 登录阿里云云盾控制台一看,攻击流量达22G(见上图). 我们赶紧联系阿里云,希望阿里云能临时解除一下屏蔽减少对…
今天五一劳动节的一大早 5:50-6:30 期间,我们使用的阿里云 RDS SQL Server 数据库实例再次出现 CPU 100% 问题,引发全站故障,由此给您带来麻烦,请您谅解. 我们发现故障后立即进行主备切换,与上次故障不同的是,这次主备切换没有成功,再次切换,依然没有成功,后来尝试重启实例,重启后恢复正常. 上次故障发生于4月28日上午,两次故障相隔如此之近之前很少遇到,我们最近会密切关注数据库的运行状况.…
抱歉,由于我们所使用的搜狐旗下的 SendCloud 邮件发送服务出现故障,今天上午大量发往 @qq.com 邮箱的邮件无法正常发送,从 SendCloud 管理控制台看这些邮件一直处于“请求中”的状态. 我们在 10:22 向 SendCloud 提交了工单,但到目前还没恢复. 由此给您带来麻烦,请您谅解. 更新:13:20 左右恢复正常…
在 .NET 5.0 背锅 . Memcached 的惹祸 .缓存雪崩之后,我们没有找到问题的真正原因,我们知道没有找到根源的故障总是会再次光临的,不是在这周就是在下周,也许就在双11前后. 就在今天双11的前一天晚上,在我们 20:30 进行常规发布的时候,它来了... 原本平滑的 memcached 服务器 tcp 连接数走势曲线开始爬坡,博客站点大量的访问请求响应缓慢,每次都"惹祸"的 memcached 自然首当其冲地成为嫌疑的焦点. 我们重启了所有 memcached 服务,…
大家好,非常抱歉,在昨天下午(12月3日)的访问高峰,园子迎来更高的并发,在这样的高并发下,突发的数据库连接故障造成博客站点全线崩溃,由此给您带来很大的麻烦,请您谅解. 最近,我们一边在忙于AWS合作项目,一边在加快产品的改进速度,一边在统一全园UI,一边在忙于解决高并发下出现的各种问题.园子正处于发展的关键时期,我们正全力应对挑战,迎接园子的新阶段.感谢大家的支持,也请大家谅解这段时间给大家带来的麻烦. 今天下午的故障开始于 14:09 左右,最开始出现的故障是访问博客后台502. 发生故障时…
今天上午 9:40 - 11:06 左右,由于阿里云“华东1地域部分负载均衡https访问异常”,造成我们的部分站点(尤其是博客后台)无法正常访问,给您带来了很大的麻烦,请您谅解. 现已恢复正常,如果您还不能正常访问,麻烦您向我们反馈. 阿里云官方故障公告: [阿里云] [负载均衡] [故障通告] 故障简述 : 监控发现于09:40左右,华东1地域部分负载均衡出现https访问不稳定. 故障原因 : 华东1地域负载均衡网络波动导致. 有任何问题,可随时通过工单或服务电话95187联系反馈. [故…
非常抱歉,今天凌晨博客站点负载均衡中所有3台服务器的IIS应用程序池突然停止工作,造成 1:20-7:45 左右博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解. 服务器操作系统是 Windows Server 2016,对应的 IIS 错误日志如下: A process serving application pool 'www.cnblogs.com' suffered a fatal communication error with the Windows Process Activ…
非常抱歉,今天下午 17:10~17:40 左右,由于博客系统所使用的 redis 服务器宕机,造成博客站点无法正常访问,由此给您带来很大的麻烦,请您谅解. 我们会针对这次故障改进 redis 服务器的部署,提高 redis 服务器的高可用性.目前 redis 服务是用阿里云服务器单独部署的,还没部署到 k8s 集群上. 没想到下半年的第一篇博文竟然是故障公告,为了凑足字发到首页,简单向大家汇报一下园子的近况. 转眼间2021年上半年过去了,园子的审核工作还没全部完成,我们依然在努力还债. 20…
非常抱歉,今天上午的博客站点故障给大家带来了很大的麻烦,请大家谅解.这次故障是我们发布 .NET Core 版博客站点引起的,虽然我们进行了充分的准备,但还是低估了高并发下的复杂问题. 以下是故障背景与大致经过: 在这个炎炎夏日,我们正日火朝天地忙着整个 .NET Core 迁移工程的收官 —— 发布 .NET Core 版博客站点与博客后台.我们的其他系统都早已迁移至 .NET Core 并已在线上工作一番时日,只剩下最难啃的硬骨头 —— 博客系统,到这个月这根钢铁般坚硬的硬骨头也被啃得差不多…