原文:http://chuansongme.com/n/797172 背景 据XX部门兄弟反应, 其在将PHP从5.3.8 升级到5.5.13 时, 开始运行正常, 运行一段时间后, 系统负载变高,达到200%以上, 从netstat看到大量连接处在CLOSE_WAIT状态. 最终导致系统不可用, 将PHP 回滚到5.3. 8 后, 一切正常. php-fpm 配置文件除了由版本引起的差异外, 没做任何改变. 猜想 根据TCP关闭连接的流程图: 可以看到, 一个处于连通状态(ESTABLISHE…
原文:http://chuansongme.com/n/797172 背景 据XX部门兄弟反应, 其在将PHP从5.3.8 升级到5.5.13 时, 开始运行正常, 运行一段时间后, 系统负载变高,达到200%以上, 从netstat看到大量连接处在CLOSE_WAIT状态. 最终导致系统不可用, 将PHP 回滚到5.3. 8 后, 一切正常. php-fpm 配置文件除了由版本引起的差异外, 没做任何改变. 猜想 根据TCP关闭连接的流程图: 可以看到, 一个处于连通状态(ESTABLISHE…
最近一个用户这边服务器运行四五天就会出现服务器负载很高的情况,原本正常是0.3~0.5左右  不正常的时候会达到3,重启机器就正常,开始以为是程序问题,后来在观察的时候把程序给杀掉了 然后重启,结果负载还是很高,于是挨个分析每个进程发现 查看当前正在运行的进程发现kipmi0进程占用率达到100%. 于是查了下这个进程的一些资料 google查不到多少资料,看到一篇说法:是一些平台接口的管理器.不敢贸然杀死,再查查资料. 看看专业的说法:kipmi is supposed to run with…
最近一个用户这边服务器出现服务器负载很高的情况,原本正常是0.3~0.5左右  不正常的时候会达到3,重启机器就正常,开始以为是程序问题,后来在观察的时候把程序给杀掉了 然后重启,结果负载还是很高,于是挨个分析每个进程发现 查看当前正在运行的进程发现kipmi0进程占用率达到100%. 于是查了下这个进程的一些资料 google查不到多少资料,看到一篇说法:是一些平台接口的管理器.不敢贸然杀死,再查查资料. 看看专业的说法:kipmi is supposed to run with low pr…
业务背景 业务背景就是需要将多张业务表中的数据增量同步到一张大宽表中,后台系统基于这张大宽表开展业务,所以就开发了一个数据同步工具,由中间件采集binlog消息到kafka里,然后我去消费,实现增量同步. 生产环境发现的现象 在程序发布到生产环境时候,机器的CPU使用率立马被打到100%, load还在不停的上升,开始机器的配置是4核心8G内存,load可以到21,通过topc命令查看load average的三个值都大于20,说明机器非常的繁忙. 排查步骤及手段 1.  通过top命令查看到C…
# top top - 21:21:51 up 207 days, 1:30, 5 users, load average: 0.90, 0.79, 1.62 Tasks: 249 total, 1 running, 246 sleeping, 2 stopped, 0 zombie %Cpu(s): 49.2 us, 2.0 sy, 0.0 ni, 48.1 id, 0.0 wa, 0.0 hi, 0.6 si, 0.0 st 如果load average很大(参考核数),则系统负载很高,其中…
1:load Average 1.1:什么是Load?什么是Load Average?    Load 就是对计算机干活多少的度量(WikiPedia:the system Load is a measure of the amount of work that a compute system is doing)    简单的说是进程队列的长度.Load Average 就是一段时间(1分钟.5分钟.15分钟)内平均Load.[参考文章:unix Load Average Part1:How…
性能分析小案例系列,可以通过下面链接查看哦 https://www.cnblogs.com/poloyy/category/1814570.html 前言 软中断基本原理,可参考这篇博客:https://www.cnblogs.com/poloyy/p/13435519.html 中断 一种异步的事件处理机制,用来提供系统的并发处理能力 当中断事件发生,会触发执行中断处理程序 中断处理程序分为上半部和下半部 上半部:硬中断,快速处理中断 下半部:软中断,用来异步处理上半部未完成的工作 软中断 每…
Linux 系统出现死机或卡顿时,可以参阅如下步骤进行整体排查: 检查服务器进程与服务否占用了过多内存,或者内存没有正常释放,导致出现内存溢出,系统宕机. 检查 /var/spool/cron 等系统配置中是否有 cron(计划任务.自动任务)在对应时间段内执行. 检查 Web 服务器的参数是否超过了服务器的性能.比如最大连接数过高等. 检查进程数是否非常高,导致服务瘫痪,机器假死. 查看系统日志中是否有异常记录. 检查磁盘是否有坏块. 内核消耗过大,查看是否有瞬间资源占用过大的进程或服务. 查…
某游戏大区DB IO负载过高分析 [问题] 下图信息看出机器IO负载过高, IO使用率: 平均值 50%, 峰值 98%, 业务高峰时间段(19:00-22:00)IO使用率持续80%以上. [分析] 提取20:00-21:00的AWR报告内容: 关联SQL: 物理读Top: 对应的SQL语句如下: select b.nick, a.itemid from ( select usn, tousn, itemid, logdate, gtype from r2b2_ap_item_log wher…