docker hung住问题排查】的更多相关文章

背景:这个是之前遇到的老问题. # systemctl status lxcfs● lxcfs.service - FUSE filesystem for LXC Loaded: loaded (/usr/lib/systemd/system/lxcfs.service; enabled; vendor preset: disabled) Active: activating (start-post) since Tue 2020-06-23 14:37:50 CST; 5min ago---这…
docker做服务时,如果客户端无法连接,错误排查: 1.先使用 docker ps 查看镜像是否都在运行中,如果没有就进入镜像查看日志 2.如果确定代码及配置文件没有问题,就需要检查镜像的替换是否正确,旧的镜像是否已经停止,并且已经被新的镜像替换…
Kubernetes 1.19.3 OS: CentOS 7.9.2009 Kernel: 5.4.94-1.el7.elrepo.x86_64 Docker: 20.10.6 先说结论,runc v1.0.0-rc93 有 bug,会导致 docker hang 住. 发现问题 线上告警提示集群中存在 2-3 个 K8s 节点处于 NotReady 的状态,并且 NotReady 状态一直持续. kubectl describe node,有 NotReady 相关事件. 登录问题机器后,查看…
最近接到博客园的反馈,SLB 7层负载均衡的实例会不定期出现流量突跌的情况,突跌持续10s左右:同时,SLB自身监控也观察到了相同的现象: 针对该问题,我们进行了持续追查,最终定位到是nginx配置的原因:在此,分享一下分析排查过程,希望对大家使用nginx有所帮助: 问题描述 SLB 7层负载均衡(nginx)流量会出现不定期的突跌,每次突跌持续10s左右:同时,每次突跌必然发生在 12点 或者  0点: 查看SLB实例流量图,发现 部分实例 在12点 和 0点 流量突增几十倍: 两个时间点吻…
当数据库出现严重的性能问题或者hang了的时候,我们非常需要通过systemstate dump来知道进程在做什么,在等待什么,谁是资源的持有者,谁阻塞了别人.在出现上述问题时,及时收集systemstate dump非常有助于问题原因的分析.在一些情况下,数据库会自动生成systemstate dump, 比如出现了“WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK”.systemstate dump大部分时候需要手工生成,具体的命令为: (如果连接很多…
检查端口占用 lsof -i:[port] netstat -anp |grep [port] 监控网络客户TCP连接数 netstat -anp | grep tcp |wc -l 获取某进程中运行中的线程数量 ls /proc/[PID]/task | wc -l 输出进程内存的状况,分析线程堆栈 pmap 统计文档容量 du -sh [目录|文件|正则] 例如:查看日志文件大小,从而判定日志是否被入侵者清理掉. du -sh /var/log/* 查看文件系统挂载点容量 df -h |gr…
在dmesg中,看到如下信息: [:: seconds [:: seconds [:af: seconds [:af: seconds [:: seconds [:3b: seconds [:: seconds [:: seconds [:af: seconds [:af: seconds [:: seconds [:3b: seconds 检测超时的函数: static void fm10k_tx_timeout(struct net_device *netdev) { struct fm10…
1.业务日志相关 假设系统出现异常或者业务有异常,首先想到的都是查看业务日志 查看日志工具: less 或者more grep tail -f filename 查看实时的最新内容 ps:切忌vim直接打开大日志文件,由于会直接载入到内存的 2.数据库相关 java应用非常多瓶颈在数据库,一条sql没写好导致慢查询,可能就会带来应用带来致命危害. 假设出现Could not get JDBC Connection .接口响应慢.线程打满等. 须要登录线上库, 查看数据库连接情况:show pro…
最近在多个大型系统中遇到此问题,一般来说假设client未反映异常的话能够忽略的. 假设是client登陆时遇到ORA-12170: TNS:Connect timeout occurred,能够參考 http://blog.csdn.net/haibusuanyun/article/details/14517211#t12 ############### 參考MOS文档有: Troubleshooting Guide for TNS-12535 or ORA-12535 or ORA-1217…
近期在多个大型系统中遇到此问题,一般来说如果客户端未反映异常的话可以忽略的.如果是客户端登陆时遇到ORA-12170: TNS:Connect timeout occurred,可以参考 http://blog.csdn.net/haibusuanyun/article/details/14517211#t12###############参考MOS文档有:Troubleshooting Guide for TNS-12535 or ORA-12535 or ORA-12170 Errors (…