数据库系统load飙高问题解决思路（转）

工作过程中有时候会接收到数据库服务器器load 飙高的报警,比如:

load1 15.25 base: 8.52,collect time:2014-08-30

如何处理load 异常飙高的报警呢？本文尝试从原理，原因，解决方法来阐述这类问题的解决思路。

一原理分析

CPU作为服务器的关键资源经常成为性能瓶颈的根源,CPU使用率高并不总是意味着CPU工作繁忙，它有可能是正在等待其他子系统。在进行性能分析时，将所有子系统当做一个整体来看是非常重要的，因为在子系统中可能会出现瀑布效应。衡量CPU
系统负载的指标是load,load 就是对计算机系统能够承担的多少负载的度量,简单的说是进程队列的长度。简单的例子比如食堂有五个窗口，当有小于五个学生来打饭，五个窗口都能及时处理，但是当学生个数超过5个，必然会出现等待的学生。请求大于当前的处理能力，会出现等待，引起load升高。
Load Average 就是一段时间(1min,5min,15min)内平均Load。平均负载的最佳值是1，这意味着每个进程都可以在一个完整的CPU 周期内完成。
14:50:31 up 166 days, 1:54, 295 users, load average: 0.05, 0.04, 0.00

二原因分析

   一般导致MySQL服务器load飙高的原因可能有以下几种情况:
  1 业务并发调用全表扫描/带有order by 排序的SQL语句.
  2 SQL语句没有合适索引/执行计划出错/update/delete where扫描全表,阻塞其他访问相同表的sql执行.
  3 存在秒杀类似的业务比如聚划算10点开团或者双十一秒杀,瞬时海量访问给数据库带来冲击。
  4 数据库做逻辑备份(需要全表扫描)或者多实例的压缩备份(压缩时需要大量的cpu计算,会导致系统服务器load飙高)
  5 磁盘写入方式改变比如有writeback 变为 write through
RAID卡都有写cache(Battery Backed Write Cache),写cache对IO性能的提升非常明显,因为掉电会丢失数据,所以必须由电池提供支持。

电池会定期充放电,一般为90天左右,当发现电量低于某个阀值时,会将写cache策略从writeback置为writethrough,相当于写cache会失效,这时如果系统有大量的IO操作,可能会明显感觉到IO响
应速度变慢,cpu 队列堆积系统load 飙高。
  6 其他欢迎补充。

三解决方法

   在Load average 高的情况下如何鉴别系统瓶颈？如何判断系统是否已经Over Load呢？要去检查判断是CPU不足，还是io不够快造成或是内存不足？
这里笔者处理的方式一般根据cpu数量去判断,也就是Load平均要小于CPU的数量,负载的正常值在不同的系统中有着很大的差别。在单核处理器的工作站中,1或2都是可以接受的。多核处理器的服务器(比如24核)上,load 会到达20 ，甚至更高。以多实例混合公用一台24核物理机为例,当DBA收到数据库服务器load 飙高报警后，一般的处理步骤

a) 数据库层面
   1 top -u mysql -c 检查当前占用cpu资源最多的进程命令。-c 是为了显示出进程对应的执行命令语句，方便查看是什么操作导致系统load飙高。
2 根据不同的情况获取pid 或者MySQL的端口号
3 如果是MySQL 数据库服务导致laod 飙高，则可以使用如下命令
show processlist;
SELECT * FROM INFORMATION_SCHEMA.PROCESSLIST WHERE COMMAND <> 'sleep' AND TIME>100;
或
orzdba 工具检查逻辑读/thread active的值。用法orzdba --help
orztop 工具检查当前正在执行的慢sql,用法orztop -P $port
   4 获取异常的sql之后，剩下的比较好解决了。结合第一部分中的几条原因
a 选择合适的索引
  b 调整sql 语句比如对应order by 分页采用延迟关联
c 业务层面增加缓存，减少对数据库的直接访问等

b) OS 系统层面检查系统IO

使用iostat 命令查看r/s(读请求),w/s(写请求),avgrq-sz(平均请求大小),await(IO等待), svctm(IO响应时间)

r/s ,w/s是每秒读/写请求的次数。

  util是设备的利用率。如果它接近100%，通常说明设备能力趋于饱和(并不绝对，比如设备有写缓存)。有时候可能会出现大于100%的情况，这多半是计算时四舍五入引起的。

  svctm是平均每次请求的服务时间。这里有一个公式：(r/s+w/s)*(svctm/1000)=util。举例子：如果util达到100%，那么此时
svctm=1000/(r/s+w/s)，假设IOPS是1000，则svctm大概在1毫秒左右，如果长时间大于这个数值，说明系统出了问题。
  await是平均每次请求的等待时间。这个时间包括了队列时间和服务时间，也就是说，一般情况下，await大于svctm，它们的差值越小，队列时间越短，反之差值越大，队列时间越长，说明系统出了问题。
  avgqu-sz是平均请求队列的长度。毫无疑问，队列长度越短越好。

http://blog.itpub.net/22664653/viewspace-1262635/

四参考资料
[1] the system Load is a measure of the amount of work that a compute system is doing
[2] unix Load Average Part1：How It Works

[3] understanding-load-averages
[4] 延迟关联解决order by 性能问题
[5] RAID磁盘写策略改变导致的故障

[6] Unix/Linux 的 Load 初级解释

数据库系统load飙高问题解决思路（转）的更多相关文章

数据库系统load飙高问题解决思路
工作过程中有时候会接收到数据库服务器器load 飙高的报警,比如: load1 15.25 base: 8.52,collect time:2014-08-30 如何处理load 异常飙高的报警呢? ...
一个load飙高的过程分析，非常有价值(转)
关于us高和sy高的问题分析: 当us值过高时,表示运行的应用消耗大量的CPU.java应用造成us高的原因主要是线程一直处于可运行(Runnable)状态,通常这些线程在执行无阻塞.循环.正则或纯粹 ...
cpu load过高问题排查
load average的概念 top命令中load average显示的是最近1分钟.5分钟和15分钟的系统平均负载. 系统平均负载被定义为在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少 ...
Linux内核分析：页回收导致的cpu load瞬间飙高的问题分析与思考--------------蘑菇街技术博客
http://mogu.io/156-156 摘要本文一是为了讨论在Linux系统出现问题时我们能够借助哪些工具去协助分析,二是讨论出现问题时大致的可能点以及思路,三是希望能给应用层开发团队介绍一些 ...
STORM在线业务实践-集群空闲CPU飙高问题排查
源:http://daiwa.ninja/index.php/2015/07/18/storm-cpu-overload/ 2015-07-18AUTHORDAIWA STORM在线业务实践-集群空闲 ...
rocketmq 主机负载异常飙高问题的解决
最近在部署rocketmq到物理机时, 发现并解决了一个主机Load异常飙高的问题, 觉得有必要记录一下. 我们采用了rocketmq(https://github.com/alibaba/Rocke ...
STORM在线业务实践-集群空闲CPU飙高问题排查（转）
最近将公司的在线业务迁移到Storm集群上,上线后遇到低峰期CPU耗费严重的情况.在解决问题的过程中深入了解了storm的内部实现原理,并且解决了一个storm0.9-0.10版本一直存在的严重bug ...
现网CPU飙高，Full GC告警
现网CPU飙高,Full GC告警 https://www.cnblogs.com/QG-whz/p/9647614.html 问题出现:现网CPU飙高,Full GC告警 CGI 服务发布到现网后, ...
java并发编程笔记（十一）——高并发处理思路和手段
java并发编程笔记(十一)--高并发处理思路和手段扩容垂直扩容(纵向扩展):提高系统部件能力水平扩容(横向扩容):增加更多系统成员来实现缓存缓存特征命中率:命中数/(命中数+没有命中数) ...

随机推荐

安装centos docker ce
安装centos docker ce 移除旧的版本: $ sudo yum remove docker \ docker-client \ docker-client-latest \ docker- ...
Jmeter通过SSHCommand测试获取Linux服务器资源文件信息
有些时间我们想通过接口测试来获取服务器上面的某个资源文件信息,应该怎么办? 别急.... Jmeter通过ssh协议可以实现这个操作. 下面来看一下具体的实现吧. 需要提前安装好的工具: 1.按照好j ...
maven更改本地的maven私服
1.今天想升级一个服务的jar包,更改后使用命令 mvn deploy -e 一直报错, 看错误信息是私服地址不是公司现在的地址. 想了半天,原来是电脑一直配置的上家公司的私服地址.. 但是在哪 ...
HttpClient get请求获取数据流
HttpClient get请求获取数据流,将数据保存为文件 public String getStreamFile(String url) throws Exception { HttpClient ...
使用Android手机进行开发的尝试
使用Android手机查看和修改Excel文件.PowerPoint文件并连接幻灯机进行演示等办公方式想必大家已经有所了解.今天介绍一下怎样使用Android进行软件开发. Termux 使用Andr ...
Linux安装kafka2.3.1基于Scala2.12
一,先从官网下载:http://kafka.apache.org/downloads 二,解压压缩包(虽然后缀是tgz,但和gz解压方式一样):然后mv kafka_2.12-2.3.1 /usr/l ...
day53——标签操作
day53 今日内容标签操作值操作取值: 文本输入框:$('#username').val(); input,type=radio单选框: $('[type="radio"] ...
C语言基础知识---认识C语言
2019.11.09 秋风晴最近一直在搞一套LoRa算法.总算有点效果了.心感慰藉(可能用错词语.但是也不管了) 初学者如何理解C语言? 无需刻板理解,笔者常用一个这样的例子助学生理解:法国人和法 ...
GridControl单元格编辑验证的方法
本文实例演示了DevExpress实现GridControl单元格编辑验证的方法,比较实用的功能,具体方法如下: 主要功能代码如下: /// <summary> /// 自定义单元格验证 ...
3.matplotlib绘制条形图
plt.bar() # coding=utf-8 from matplotlib import pyplot as plt from matplotlib import font_manager my ...

数据库系统load飙高问题解决思路（转）

数据库系统load飙高问题解决思路（转）的更多相关文章

随机推荐

热门专题