stress施压案例分析——cpu、io、mem【命令分析】

stress施压命令分析

一、stress --cpu 1 --timeout 600 分析现象？负载为啥这么高？top命令查看用户进程消耗的cpu过高（stress进程消耗的）

分析现象，可以看出负载很高，用户态的cpu的使用率是100%，stress进程使用的cpu也接近100%。

问题：负载为什么接近于1？？

# vmstat 1 查看监控信息

负载=r+b，这是一个瞬时值。

下图可以看出r+b为1，所以这里的负载为1。

这里负载不为2的原因，这里只有一核cpu在干活，也只有一个进程在消耗cpu，所以这里负载是1，不会是2。

二、stress -i 1 --timeout 600 分析现象？top看负载升高，内核cpu过高？ iostat -x 3 stress消耗cpu多，iowait 等待 pidstat -d

正常情况下，这里的iowait也是有数据的，不是0，应该会涨，可能是操作系统版本的原因，或者用stress-ng版本这个加强版

下载地址：https://kernel.ubuntu.com/~cking/tarballs/stress-ng/

安装步骤和stress一样的，需要编译安装。

高版本的stress-ng编译需要高版本的gcc，我这里以前是4.4.7版本的

gcc下载地址：http://www.gnu.org/prep/ftp.html

分析步骤：

top可以看到有iowait ，所以这里可能是io等待导致的。

1、 iostat -x 3

通过iostat 看磁盘的繁忙程度，这里的数据应该是达到20%以上，可以看出磁盘繁忙，还有进程读和写，我这里的操作系统版本太低，所以数据很小。

这里写操作也比较多，怀疑应该每秒写600多,所以磁盘繁忙是大量的写导致的，所以下面使用pidstat再分析。

2、pidstat -d 3 查看进程读、进程写、和进程延迟

这里iodelay，这里每次都有java（tomcat）和stress。

这里的写操作比较多，

三、stress -c 8 --timeout 600

现象：用户cpu已经打满了，负载上升很快，并且很快就到8了，每个进程所占的cpu资源是12%多，就是这8个stress把cpu打满了。

vmstat 1

负载=r+b =8

pidstat 3

这里的%wait是等待cpu临幸它所消耗的一个百分比，百分比越高，等待排队的时间越长，和iowait不同。

这里8个进程在抢占cpu，中断和上下文切换会高些。

vmstat 3 查看中断和上下文切换

这里cs应该达到几十万以上，我这里数据不对，

案例：有次压测用的是4核的一个cpu，用20个线程去压，cpu就打满了，到100%

一个tomcat写的java进程，20个并发的是tps大概是90多，30个并发tps是80多，80个并发的时候tps就是70多。

cpu都是打满的，随着并发数的时候，响应时间不断增加，tps不断减小。

什么原因？？？

响应时间增加怀疑cpu上下文切换导致的线程等待时间比较长，

tomcat打印tomcat整理处理时间，再打印一个接口的一个处理时间，接口处理时间从100ms增加到200ms，但是tomcat的处理时间从1s增加到8s。

随着并发数的增加，tomcat线程池的排队时间从1s增加到8s多，时间耗在哪里了呢，时间耗在了线程的上下文切换上了。

四、sysbench --threads=10 --max-time=300 threads run

现象：负载很高，大部分还在内核态cpu，看看谁在用内核态cpu？iowait没有，中断没有，也不是虚拟化？？那是谁把内核cpu打满了？？

最有可能是上下文切换，进程之间上下文切换导致的内核态cpu比较高。

# vmstat 1

可以看到图中cs上下文切换真他妈好高，达到百万级别了。

#pidstat -w 看上下文切换，但是这里啥也看不出来。为啥看不出来呢？？？

因为？？？

pidstat默认看的是进程之间的上下文切换，上下文切换的最小单位是线程。

查看线程之间的上下文切换加一个-t参数

pidstat -wt 1

cswch自愿上下文切换：进程无法获取资源导致的上下文切换，比如；I/O，内存资源等系统资源不足，就会发生自愿上下文切换。

nvcswch非自愿上下文切换：进程由于时间片已到，被系统强制调度，进而发生的上下文切换，比如大量进程抢占cpu。

python脚本运行分析

五、app.py

python3 app.py 运行python脚本，看现象

现象：负载上来，这里%iowait特别高，应该是80%多，cpu内核使用也挺高的，top 定位到磁盘有问题。

#vmstat 1

首先查看这里负载为啥升高？负载=r+b

可以看到这里只有一个进程运行也就是r，但是b（中断不可恢复）会有多个，可见负载高是由io导致的。

# iostat -x 3

查看下面的磁盘繁忙程度很高，并且写的排队时间到174多毫秒，写的速度为每秒20多万KB，可见是由大量的写操作导致的磁盘比较繁忙。

#pidstat -d 3 查看到底是哪个进程导致的iowait，也就是哪个进程在进行大量的写操作。

可以看到是python3这个进程在进行大量地写操作，达到十万级别以上。

分析流程屡一下：

1、top首先看负载高（负载=r+b），vmstat 查看这里是有中断不可恢复的进程的比较多（io操作一般是中断不可恢复的进程，可能是io问题）；

2、然后看cpu使用情况，看到cpu这里iowait比较高，可见是由磁盘导致的；

3、然后iostat -x 看磁盘，磁盘这里确实比较繁忙，并且有很疯狂的写操作，磁盘每次操作消耗时间比较长，大部分时间耗排队时间比较长；

4、然后分析到底是哪个进程在进行写操作，这里使用pidstat -d 3 查看是python3进程在进行大量的写操作，消耗io比较高，这里是定位到了进程的层面；

5、对于应用程序要定位到方法层面，为啥导致了写操作比较多，到底在写什么东西呢？？

这里可以看到python3的pid 为32488，这里内核调用也挺高的，用strace来跟踪系统内核进程的调用情况。

strace -p 32488

这里是在往logtest.txt写文件，进入到相应目录查看有没有这个文件。

使用lsof查看文件句柄，看都是谁打开的，是python3打开的，目前已经定位到了在写什么了。

6、定位到方法，再去看代码，每次写得很大，大概10M。

六、iolatency.py

负载不高，cpu使用率也不高，iowait也不高，ni 中断都没问题，啥现象都没有，但就是使用的时候，或者使用某个具体功能，访问某个具体的页面的时候响应贼慢。

启动的时候，大家可以看到启动了一个ip：80

所以这里可以访问一下，192.168.1.17 （http默认80端口，可以不加）大家可以看到这里访问很快

但是如果大家访问 192.168.1.17/popularity/word 就可以看到这里访问贼慢,还没有返回结果。

过了好大一会，才返回如下结果：

这里进行压测该接口 http://192.168.1.17/popularity/word 我们top下观察现象：

这里负载升高、iowait也升高达80%多。

1、负载上去的原因：vmstat 1 b列有许多中断不可恢复的进程。io 里的bo数据很大，是在进行大量的写操作，定位到io问题。

2、iostat -x 3 查看队列、和写的速度都很大，定位到是大量的写操作导致磁盘繁忙和和排队，下面查看是哪个进程在大量地写。

3、pidstat -d 3 确定是python进程在写操作。

4、strace -p <pid>看这个进程在写啥，或者加个过滤条件：strace -p <pid> grep | write，跟踪不到在写啥？？？？

5、filetop （bcc-tools里的一个包，github上下载，源码安装）

stress施压案例分析——cpu、io、mem【命令分析】的更多相关文章

CPU IO MEM NETWork 监控命令
性能优化中CPU.内存.磁盘IO.网络性能的依赖(上) 性能优化中CPU.内存.磁盘IO.网络性能的依赖(下)
历史执行Sql语句性能分析 CPU资源占用时间分析
SELECT HIGHEST_CPU_QUERIES.PLAN_HANDLE, HIGHEST_CPU_QUERIES.TOTAL_WORKER_TIME, Q.DBID, ...
Linux中IO监控命令的使用分析
一篇不错的有关linux io监控命令的介绍和使用. 1.系统级IO监控 iostat iostat -xdm 1 # 个人习惯 %util 代表磁盘繁忙程度.100% 表示磁盘 ...
Linux性能分析——分析系统性能相关的命令
Linux性能分析——分析系统性能相关的命令摘要:本文主要学习了Linux系统中分析性能相关的命令. ps命令 ps命令用来显示系统中进程的运行情况,显示的是当前系统的快照. 基本语法 ps [选项 ...
Linux下java进程CPU占用率高分析方法
Linux下java进程CPU占用率高分析方法在工作当中,肯定会遇到由代码所导致的高CPU耗用以及内存溢出的情况.这种情况发生时,我们怎么去找出原因并解决. 一般解决方法是通过top命令找出消耗资源 ...
Centos下的IO监控与分析
近期要在公司内部做个Linux IO方面的培训, 整理下手头的资料给大家分享下各种IO监视工具在Linux IO 体系结构中的位置源自 Linux Performance and Tuni ...
Linux下的IO监控与分析
Linux下的IO监控与分析近期要在公司内部做个Linux IO方面的培训, 整理下手头的资料给大家分享下各种IO监视工具在Linux IO 体系结构中的位置源自 Linux Performan ...
【转载】Linux下的IO监控与分析
近期要在公司内部做个Linux IO方面的培训, 整理下手头的资料给大家分享下各种IO监视工具在Linux IO 体系结构中的位置源自 Linux Performance and Tuning G ...
MySQL中使用SHOW PROFILE命令分析性能的用法整理（配合explain效果更好，可以作为优化周期性检查）
这篇文章主要介绍了MySQL中使用show profile命令分析性能的用法整理,show profiles是数据库性能优化的常用命令,需要的朋友可以参考下 show profile是由Jerem ...

随机推荐

Ubuntu系统的软件源更换
参考:https://www.daweibro.com/node/142 什么是Ubuntu的软件源? 我们在使用Debian或者Ubuntu的apt-get工具来安装需要的软件时,其实就是从服务器获 ...
离群点检测(Novelty Detection, Outlier Detenction)
适合问题: 对于无标签的数据, 又想找出坏用户,完成业务目标. 参考: https://scikit-learn.org/stable/modules/outlier_detection.html 算 ...
对于centos的运用ssh远程连接
1,首先安装ssh服务器 $yum install openssh-server 2,记录你当前centos的ip地址 $ifconfig 3,再在windows里面安装putty 4安装完成后, 在 ...
吴裕雄--天生自然TensorFlow高层封装：Estimator-自定义模型
# 1. 自定义模型并训练. import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist i ...
黑马oracle_day02：04.oracle对象&&05.oracle编程(a)
01.oracle体系结构 02.oracle的基本操作 03.oracle的查询 04.oracle对象&&05.oracle编程(a) 05.oracle编程(b) 04.orac ...
寒假day06
今天完善了毕设的数据抽取功能,新增了几点: 1.已经抽取过的表由系统给出相应提示 2.生成数据抽取记录并展示 3.界面优化
Python 中 JSON和dict的转换，json的使用
一. 基础语法在Python 的 json库中,共有四个方法.分别是: json.load() # 从文件中加载 json.loads() # 数据中加载 json.dump() # 转存到文件 j ...
关于SG函数
Sprague-Grundy定理(SG定理): 游戏和的SG函数等于各个游戏SG函数的Nim和.这样就可以将每一个子游戏分而治之,从而简化了问题.而Bouton定理就是Sprague-Grundy定理 ...
STL入门练习
题目练习地址https://vjudge.net/contest/310054#overview 看病要排队 http://acm.hdu.edu.cn/showproblem.php?pid ...
画张自己能理解的dotnet core 微服务图

stress施压案例分析——cpu、io、mem【命令分析】

stress施压案例分析——cpu、io、mem【命令分析】的更多相关文章

随机推荐

热门专题