一.背景 集群是二进制部署 部署完成后一起正常,各种资源对象均可正常创建. 部署应用后发现无法跨节点通信,且pod的ip都是172.17.0.0段的 二.排查过程层 查看节点路由,发现docker0网卡居然是172.17.0.0段(what?) 查找如下资料:基于docker的CNM部署flanel时,需要将/run/flannel/subnet.env作为docker的环境变量,且启动时指定flannel的网段信息 三.解决方案(修改配置文件:/usr/lib/systemd/system/d…
一.故障现象 我们团队访问腾讯云上部署的测试环境中的Web系统A时,偶尔会出现类似于网络闪断的情况,浏览器卡很久没有反应,最终报Connection Timeout. 不过奇怪的是,当团队中的某个人无法访问A时,其他人仍然可以正常访问.而且无法访问的这个人如果利用VPN,找一台其他地方的主机为跳板,也可正常访问A. 而且该故障发生几率较低,持续时间也较短,一般稍等片刻即可自行恢复.所以,很长一段时间以来,该故障均没有引起重视,只是被我们简单的认为可能是运营商网络质量问题. 直到最近发生几率越来越…
解Bug之路-记一次存储故障的排查过程 高可用真是一丝细节都不得马虎.平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug.偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题,特别是偶发性出现的问题更难排查.今天,笔者就给大家带来一个存储偶发性故障的排查过程. Bug现场 我们的积分应用由于量非常大,所以需要进行分库分表,所以接入了我们的中间件.一直稳定运行,但应用最近确经常偶发连接建立不上的报错.报错如下: GetConnectionTimeOutException 而…
1 写在前边 自从公司项目前年上了 OpenShift 3.9 私有云平台,更新部署程序的确变得更加容易了.但是带来了很多复杂性,运维实施人员的学习曲线也陡然上升. 上云之前:在项目没上容器云的早期,应用服务集群往往是由一个Nginx作为负载均衡器,当有集群中有一个节点出现故障时,只需要将 Nginx 上负载均衡块 upstream 块中的故障节点地址移除,刷新 Nginx 即可达到快速响应,也能慢慢收集性能指标进行分析. 上云之后:在云上部署应用,应用容器生命周期由 Deployment 管理…
原贴如下 坑爹坑娘坑祖宗的87端口(记一次tomcat故障排查) 虽然我用的是PHPstudy部署的dedecms,还是一样栽倒这个坑里了. 总结经验:本地测试使用8000~9000的端口比较安全.…
原文作者:aircraft 原文链接:https://www.cnblogs.com/DOMLX/p/9613027.html 锲子:进程与线程是什么,他们的区别在哪里: 1 进程概念 进程是程序的一次动态执行过程.程序本身只是指令的集合,进程才是程序的真正运行,用户运行程序就产生了进程,用户关闭程序就结束了进程.一个程序可以产生多个进程,但一个进程只能由一个程序产生.进程有5种生命周期状态:创建.就绪.运行.阻塞.退出,下图表示了5种状态之间的关系. 与上面的5种状态不同,在Linux中使用t…
网络故障 1.环路故障 概念 1).以太网是一个支持广播的网络, 在没有环路的环境中,广播报文在网络中以泛洪的形式被送达到网络的第一个角落,以保证每个设备都能够接受到它.每台二层设备在接收到广播报文以后,都会向除接收端口以外的其他所有接口轩发这个广播报文,一旦网络中有环路,这种简单的广播机制就会引发灾难性后果. 2).以太网产生环路后可能会有如下现象产生: A.设备无法远程登录 B.在设备上使用display interface 命令查看接口统计信息时发现接口收到大量广播报文 C.使用串口登录设…
App往往都有缓存功能,例如常见的新闻类应用,如果你关闭网络,你上次打开App加载的数据还在,只是不能加载新的数据了. 我的博客bougieblog.cn,欢迎前来尬聊. 集中处理请求 如果你fetch数据的页面有多个,不集中处理的话每个页面都要单独进行缓存处理.那么,如何对http请求进行集中处理? 在WebApp中常见的做法就是将请求放在action里面,例如Vuex和Redux.但是在业务逻辑较少的App中,我们往往可能不需要Redux.这时就需要我们自己对集中请求进行封装. 封装Asyn…
网络故障可以说是分布式系统天生的宿敌.如果永远不发生网络故障,我们实际上可以设计出高可用强一致的分布式系统.可惜的是不发生网络故障的分布式环境还不存在,ZK 使用过程中也需要小心的应付网络故障. 让我们先忘掉故障发生的情况,首先来看到 ZK 对网络连接的处理.ZK 客户端启动时带有所有可用的服务器的信息,它会随机选择和其中一台服务器尝试连接,在正常的成功连接的情况下,ZK 客户端和服务端会建立起一个会话(session),在会话超时之前服务端会响应客户端的请求,每次新的请求都会刷新会话超时的时间…
网络不通 先ping自己 在ping网关 再ping外网 再ping别人的ip 背景需求 Linux 因为其强大的网络处理能力,被广泛用于网关(实例链接)和服务器(实例链接).实际工作中,快速排查这些 Linux 设备的网络故障成为解决问题的利器.为此,本文列出高频使用的 Linux 排查网络故障的命令. 诊断系统资源 CPU: uptime, top, sar -u RAM: free, top, sar -r Disk: iostat, sar -b, df -h, du -S /home…