High IO wait

1 现象

top 命令,我们发现%wa 的值,达到20以上,甚至40以上,此时,我们就要明确,现在CPU 大量消耗在等待IO响应上了。请注意,是在等待IO响应,而不是在等待磁盘完成IO操作.

这两者之间的区别在于,等待IO响应, 可能链路没反应,请求根本没有到达磁盘,也有 可能磁盘损坏,无法响应,高IO wait 不一定代表磁盘很忙。

因此分析这种情况,我们需要从两个角度来考虑: 磁盘忙和磁盘不忙。磁盘不忙,但是 %wa 较高,唯一说明的问题就是:IO通道发生了异常。进程发送请求、信号传输、链路 传输、磁盘读取/写入、信号返回等各个步骤都有可能异常。所以%wa高,不一定是磁盘 达到了瓶颈。也有可能是链路或存储本身出现了问题,也有可能服务器参数配置不合理 导致进程无法发送消息。

2 分析

常用的分析工具有iotop,iostat. 一般想看哪个或者哪些磁盘上CPU等待比较高,会使用iostat, 而查找消耗IO较高的进程则使 用iotop. 那么如果我们查看哪些进程在等待IO响应,可以使用一行命令。下面来详细 说明:

2.1 iotop或者pidstat

 

2.1.1 iotop

iotop可以让我们很方便的找出哪个进程在消耗大量的IO资源。也就是统计出进程的IO量。 这个命令的统计结果,是真实的IO消耗的统计,一般排行在靠前的进程,说明消耗IO资源 较多。具体磁盘忙不忙,还要看IO吞吐量。 示例如下:

Total DISK READ :       0.00 B/s | Total DISK WRITE :     137.02 K/s
Actual DISK READ: 0.00 B/s | Actual DISK WRITE: 207.49 K/s
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
5965 be/4 adb 0.00 B/s 62.64 K/s 0.00 % 0.28 % postgres: wal writer process
5908 be/4 adb 0.00 B/s 15.66 K/s 0.00 % 0.00 % postgres: logger process
5952 be/4 adb 0.00 B/s 11.74 K/s 0.00 % 0.00 % postgres: logger process
5953 be/4 adb 0.00 B/s 15.66 K/s 0.00 % 0.00 % postgres: logger process
5967 be/4 adb 0.00 B/s 15.66 K/s 0.00 % 0.00 % postgres: stats collector process
........

输出结果以IO列做降序排列,固定的时间(默认1秒)间隔刷新一次结果。有了进程编号, 我们就可以很方便的分析,定位高IO产生的原因。 或者直接输入 iotop -boP 命令, 将 每秒输出一次IO统计和正在使用IO的进程。如果使用IO的进程较多,还是不加参数方便

不过有些环境,并没有安装iotop工具,那么我们怎么办?其实iotop命令,获取的数据就 是存储在/proc/<pid>/io文件中。比如:

#cat /proc/5977/io
rchar: 29381
wchar: 4369248962
syscr: 29379
syscw: 96033
read_bytes: 0
write_bytes: 4369088512
cancelled_write_bytes: 0

我们完全可以通过自己写脚本来实现基本的统计,比如每秒哪个进程读写最高。

2.1.2 pidstat

pidstat 这个命令,也是可以用来做高IO等待的性能分析的。而且也非常方便实用。

我们可以通过 pidstat -d <interval> 来输出进程的消耗情况。

pidstat -d 1 1
12时56分51秒 PID kB_rd/s kB_wr/s kB_ccwr/s Command
12时56分53秒 3348 0.00 20.00 0.00 jbd2/dm-2-8
12时56分53秒 3679 0.00 6.00 0.00 rsyslogd
12时56分53秒 22903 0.00 724.00 0.00 ns-slapd
12时56分53秒 44188 0.00 18.00 0.00 java
12时56分53秒 47980 0.00 4.00 0.00 java

也可以进行条件判断,取出关心的数据。比如:

pidstat -dl| head -3;pidstat -dl |awk '{if ($4 >10 || $3 > 10) print $0}'

这一行的本意是输出读或者写大于10K的进程,但是由于不同操作系统设置不同,读和写的列不一定是第3和第4列。 因此执行前,需要先确认。

note
pidstat -d 的输出,默认是以Pid 进行升序排列的。

2.2 脚本

等待I/O的进程通过处于uninterruptible sleep或D状态。通过这个特点,查找有问题 的进程。这行命令,找出来的进程,只能说明,进程在等待IO操作,但是并不能说明 磁盘本身已经达到瓶颈。但是从另外一个角度来讲,我们可以定准有问题的进程。

for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done

此命令,每5秒, 取一次结果.查询结果类似如下:

-----
D 248 [jbd2/dm-0-8]
-----
D 248 [jbd2/dm-0-8]

2.3 追踪进程

我们定位了等待IO请求的进程,如果确实是消耗了IO, 我们可以通过减少单位时间的 IO吞吐来解决,或者把数据分散到不同的时间段去处理。

如果进程只是在等待IO,并没有什么吞吐量,可以对进程进行追踪(strace/truss)或 者gdb调试。看看问题到底出现在哪里。 问题到底出在哪儿。

Author: halberd.lee@gmail.com

Created: 2020-04-29 Wed 17:49

Validate

Linux 高 wio 分析的更多相关文章

  1. linux系统瓶颈分析(精)

    linux系统瓶颈分析(精) (2013-09-17 14:22:00)   分类: linux服务器瓶颈分析 1.0 性能监控介绍 性能优化就是找到系统处理中的瓶颈以及去除这些的过程,多数管理员相信 ...

  2. linux系统瓶颈分析(精) CPU Memory IO Network

    linux系统瓶颈分析(精) linux系统瓶颈分析(精) (2013-09-17 14:22:00)   分类: linux服务器瓶颈分析 1.0 性能监控介绍性能优化就是找到系统处理中的瓶颈以及去 ...

  3. Linux系统IO分析工具之iotop常用参数介绍

      Linux系统IO分析工具之iotop常用参数介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在一般运维工作中经常会遇到这么一个场景,服务器的IO负载很高(iostat中的 ...

  4. Db2性能:系统CPU高问题分析的一些思路

    Db2性能:系统CPU高问题分析的一些思路 1. 如何判断CPU高? 有很多操作系统的命令可以看出来,比如ps -elf,iostat, vmstat, top/topas, 2. 收集数据 CPU高 ...

  5. 01-Coredump核心转存&&Linux程序地址分析【转】

    转自:http://www.itwendao.com/article/detail/404132.html 目录(?)[-] 一Core Dump核心转存 二Linux程序地址分析 一Core Dum ...

  6. Linux内核源代码分析方法

    Linux内核源代码分析方法   一.内核源代码之我见 Linux内核代码的庞大令不少人"望而生畏",也正由于如此,使得人们对Linux的了解仅处于泛泛的层次.假设想透析Linux ...

  7. GNU Linux高并发性能优化方案

    /*********************************************************** * Author : Samson * Date : 07/14/2015 * ...

  8. Linux下性能分析工具汇总

    来自:http://os.51cto.com/art/201104/253114.htm 本文讲述的是:CPU性能分析工具.Memory性能分析工具.I/O性能分析工具.Network性能分析工具. ...

  9. 服务器负载过高问题分析-不是cpu高负载也不是IO负载如何处理(阿里 几乎是必考题)

    关于top命令 经常问load average 参考:load average 定义(网易面试) jvm dump的使用 参考:Jvm dump jstack jmap jstat 介绍与使用(内存与 ...

随机推荐

  1. [noip模拟]数字对<RMQ&二分>

    数字对 [题目描述] 小H是个善于思考的学生,现在她又在思考一个有关序列的问题. 她的面前浮现出一个长度为n的序列{ai},她想找出一段区间[L, R](1 <= L <= R <= ...

  2. 面试都在问的「微服务」「RPC」「服务治理」「下一代微服务」一文带你彻底搞懂!

    ❝ 文章每周持续更新,各位的「三连」是对我最大的肯定.可以微信搜索公众号「 后端技术学堂 」第一时间阅读(一般比博客早更新一到两篇) ❞ 单体式应用程序 与微服务相对的另一个概念是传统的「单体式应用程 ...

  3. python opencv 图片缺陷检测(讲解直方图以及相关系数对比法)

    一.利用直方图的方式进行批量的图片缺陷检测(方法简单) 二.步骤(完整代码见最后) 2.1灰度转换(将原图和要检测对比的图分开灰度化) 灰度化的作用是因为后面的直方图比较需要以像素256为基准进行相关 ...

  4. Vue的父子组件v-model双向绑定,父组件修改子组件中绑定的v-model属性

    先来看下实现的效果,父组件中有个文本框,在点击下面按钮时弹出抽屉,抽屉里也有个文本框,文本框里的初始值要和父组件的文本框同步,并且修改抽屉里的文本框值时 父组件里的文本框值也要跟着改变 网上有大概三种 ...

  5. django自定义实现登录验证-更新版

    django自定义实现登录验证 django内置的登录验证必须让开发者使用django内置的User模块,这会让开发者再某些方面被限制住 下面的模块是我自己自定义实现的django验证,使用方式和dj ...

  6. 多级分销概念 MongoDB||MySQL

    1.背景 购物软件中提供推荐注册返利机制,A->B,A->C,B->D,B->E.被邀请人只有一对一的上级,上级对下级是一对多,用户可以一直邀请用户. 2.实现方法 2.1.M ...

  7. c++类模板之分文件编写问题及解决

    我们在实际项目中一般习惯头文件(.h)和源文件(.cpp)分开写,这样做的好处良多,但是如果遇到了类模板,这样可能会有一点儿问题. 我们通过一个例子来看: person.h: #pragma once ...

  8. 登陆ECP后,无法正常现实OU

    当我们在ECP创建邮箱账户或者会议室的时候,发现无法预览所有OU信息 这是因为,默认情况下,Exchange只能识别到500个OU,如果要解决这个问题就需要我们到后端服务器修改配置文件 文件路径:C: ...

  9. CentOS8.1.1911正式发布!

    前阵子,CentOS官方宣布:CentOS8.1.1911正式发布!已经安装CentOS8.0的朋友,可以执行yum update更新(笔者更新了2次),体验下新版本!如是新安装,可以从官方网站下载h ...

  10. 【半监督学习】MixMatch、UDA、ReMixMatch、FixMatch

    半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA.ReMixMatch,再到 2020 年 ...