转载自:https://mp.weixin.qq.com/s/07S930e6vsN2iToo0gP0zg 英文版 高清图地址:https://learnk8s.io/a/a-visual-guide-on-troubleshooting-kubernetes-deployments/troubleshooting-kubernetes.en_en.v2.png 中文版 高清图地址:https://learnk8s.io/a/a-visual-guide-on-troubleshooting-k…
本文将帮助你厘清在Kubernetes中调试 deployment的思路.下图是完整的故障排查思路,如果你想获得更清晰的图片,请在公众号后台(RancherLabs)回复"troubleshooting". 当你希望在Kubernetes中部署一个应用程序,你通常需要定义三个组件: Deployment--这是创建名为Pods的应用程序副本的方法 Serivce--内部负载均衡器,将流量路由到Pods Ingress--可以描述流量如何从集群外部流向Service 接下来,我们通过图片…
Kubernetes的故障排查一直困扰众多运维团队或DevOps,除了Kubernetes本身的复杂性之外,还有Kubernetes的工作负载是动态的原因.本文将介绍1个工具可以帮助你可视化K8S的网络和流量,以提升你的故障排查效率. 本文来自Rancher Labs 作为领先的多集群Kubernetes管理平台,Rancher使运维团队可以部署.管理和保护企业的Kubernetes集群.Rancher还为用户提供了一系列容器网络接口(CNI)选项可供选择,包括开源项目Calico(https:…
作者 | 骆冰利 来源 | Erda 公众号 ​ 某天晚上,客户碰到了这样的问题:K8s 集群一直扩容失败,所有节点都无法正常加入集群.在经过多番折腾无解后,客户将问题反馈到我们这里,希望得到技术支持.该问题的整个排查过程比较有意思,本文对其中的排查思路及所用的方法进行了归纳整理并分享给大家,希望能够对大家在排查此类问题时有些帮助和参考. ​ 问题现象 运维同学在对客户的 K8s 集群进行节点扩容时,发现新增的节点一直添加失败.初步排查结果如下: ​ 在新增节点上,访问 K8s master s…
针对越来多的Kubernetes容器云,对Kubernetes集群的故障排查却成了一个棘手问题.本文虫虫给大家以直观图示方式介绍如何排查Kubernetes的故障.该篇是系列文章续——故障排查篇. 概述 上一篇,我们介绍了Kubernetes三个关键组件入口.服务和Pods之间如何连接,以及相关配置关键点.知道如何正确配置YAML只是开始,最重要最实用的是要知道出问题了如何排查. 在深入研究排查部署之前,我们必须先给出排查Kubernetes故障的思维模型.由于每个部署中都存在三个组件,因此需要…
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以参考. 现象 我们之前有一个计算作业.最近经常出现不稳定,无法正常响应的情况.具体表现是:各种连接超时,从mysql.mongodb和zookeeper到netty,能超时的都超时过了.其他看不到太多有效的异常. 所以我们首先怀疑的是网络问题,打电话跟运维确认,运维说网络问题的可能性几乎为0,因为我…
原文:SQL Server 2008性能故障排查(四)--TempDB 接着上一章:I/O TempDB: TempDB是一个全局数据库,存储内部和用户对象还有零食表.对象.在SQLServer操作过程中产生的存储过程等数据.在一个SQLServer实例中,只有一个TempDB.所以容易成为性能和磁盘空间瓶颈.TempDB可能因为空间可用程度和过量的DDL和DML操作而变得超负荷.这可能导致不相关的应用运行缓慢甚至失败. 常见的TempDB问题如下: l  TempDB空间超支. l  因为Te…
原文:SQL Server 2008性能故障排查(三)--I/O 接着上一章:CPU瓶颈 I/O瓶颈(I/O Bottlenecks): SQLServer的性能严重依赖I/O子系统.除非你的数据库完全加载到物理内存中,否则SQLServer会不断地把数据库文件从缓存池中搬进搬出,这会引起大量的I/O传输.同样地,日志记录在事务被声明为已提交前必须写入磁盘.最后,SQLServer基于许多原因使用tempdb,比如存储临时结果.排序和保持行版本.所以一个好的I/O子系统是SQLServer性能关…
原文:SQL Server 2008性能故障排查(一)--概论 备注:本人花了大量下班时间翻译,绝无抄袭,允许转载,但请注明出处.由于篇幅长,无法一篇博文全部说完,同时也没那么快全部翻译完,所以按章节发布.由于本人水平有限,翻译结果肯定存在问题,为了不造成误导,在每篇结尾处都附上原文,供大家参考,也希望能指出我的问题,以便改进.谢谢. 另外,本文写给稍微有经验的数据库开发人员或者DBA看,初学者可能会看不懂.在此请见谅 作者:Sunil Agarwal, Boris Baryshnikov, K…
-------------------------------------------------------------------------- 春节期间闲来无事想研究下算法,上机测试代码却遇到了意外错误,在此记录整个过程,祝各位新的一年在算法设计和故障排查方面的思维敏锐度媲美 dog 的 嗅觉! -------------------------------------------------------------------------- 整数 n 的阶乘(factorial)记作"n…