MySQL跑得慢的原因分析

第一点，硬件太老

硬件我们这里主要从CPU、内存、磁盘三个方面来说下，还有一些因素比如网卡，机房网络等因为文章篇幅关系，就不一一介绍了，以后还有机会可以聊。

首先我们来看下MySQL对CPU的利用特点：

5.1可以利用4个核，5.5可以利用到24个核，5.6可以利用到64个核

比如MySQL5.6能用到48个CORE以上，跑得好的，64个CORE都能用到(48CORE-64CORE之间，官方公布48个CORE，我实际测试能跑到64个CORE)。

MySQL 5.6 可以用到48 core+

MySQL 5.1 前最多可以用到4个核

现在一般的生产环境服务器，都是32CORE以上。

所以我这里都推荐大家尽量得去用MySQL5.5或MySQL5.6, 除非你们公司的服务器一直用的很老旧的服务器，只有4个核，或1个核。

因为5.1以前(5.0一样)都是在内部代码里写死了，是基于innobase的存储引擎，数据库对硬件的利用率较差。后面演进为了InnoDB引擎后，好了很多。

每个连接一个是一个线程(非thread pool)，每个query只能使用到一个核

另外，在MySQL每个query只能用到一个CPU。

Oracle里面用并行SQL，并行查询，这类功能在MySQL里是不存在的。

无执行计划缓存（无SQL执行计划预编译）windows远程桌面

其次，MySQL内部没有SQL预编译。因此不存在像Oracle内存结构里的library cache（库缓存）这类结构体。所以，MySQL只有硬解析，不存在什么软解析，更不存在什么软软解析。

MySQL随着连接数上升会出现性能下降

这个也是MySQL的一个硬伤，但是随着MySQL的版本演进，还是出现了很多解决方法。

比如：官方推出的thread pool（线程池），简称TP。就是为了解决并发连接数过高的问题，不过这属于MySQL额外的组件，官方的TP是需要额外花钱购买的。

另外，国内有个叫楼方鑫的，开发了一个OneSQL的中间件，也是解决类似问题的。

有Result缓存，但比较鸡肋

MySQL里也有类似Oracle里的结果缓存，叫Query Cache，但属于比较鸡肋的功能，很少使用。

因为大部分实际的生产环境都是OLTP系统，存在频繁的更新修改操作，这个Query Cache用在数据频繁更新修改的环境里，会使MySQL的性能严重下降，因此，一般很少使用。

现在用MySQL，基本都是用InnoDB存储引擎，以前的MyISAM这些引擎也用得很少了。（什么是存储引擎？这个不知道的话，你可以gg了）

InnoDB引擎是完全没有必要去开启这个Query Cache的，因为本身就是一个事务型的存储引擎，用InnoDB就是用它的事务处理能力，肯定会发生频繁的数据更新和修改嘛。

再次来看下MySQL对内存利用特点

64位操作系统的服务器可利用内存((2^64-1)/1024/1024/1024)G

在高速并发环境，基本是靠内存缓存来减少对磁盘的IO冲击

通常内存按实际数据的15%-20%规划，如果特别热的数据，需要考虑更大的比例来缓存数据

这15%-20%的数据我们通常又叫做热数据。（这也是通常的一个经验值）

比如你评估出你这台MySQL数据总量大概在500G左右，那MySQL要给到的内存可能就是75G（500*0.15），那你可能需要一台128G左右内存的服务器。

另外有些业务还会存在特别热、大量热的数据（大大超出15%-20%这个区间，也是有可能的），比如：QQ农场。

相信大家都玩过以前那种偷菜的游戏，QQ农场，开心农场之类的。（还有订票的12306网站）。

这类业务在我们业界里面都是属于关注度很高的，这类业务的特点，数据热的时候，基本100%都是热数据，比如：QQ农场大家玩的时候，每天都上来玩的，每隔一会儿就上来偷把菜,很多人半夜起来上厕所起来都要偷一把菜。

所以这类业务的MySQL数据库，内存配备还得加高。 15-20%还不够。

总结：一般的业务15%-20%来规划热数据，比如：用户中心，订单之类的常见业务。另外一些特殊点的业务，具体情况具体分析。

可以根据Query响应时间来做指导分配

我们在做这种大型在线架构-大型数据库规划设计的时候，

SQL查询的响应时间也是一个非常重要的指标。

在这种大型系统里面，要承载数百万甚至千万级别用户同时在线进行业务，SQL查询（query）的响应时间是必须去严格把控，必须把你这套系统的Query响应时间控制在多少时间以内。

比如我们的核心库，我就要求Query的响应时间（平均响应）在30ms以下。超过30ms，我们就认为这个数据库可能达到承载极限，需要对这个数据库进行扩容了。

另外，要对这个Query响应时间进行长期的指标监控。

这个是核心库，如果另外一些不太重要的辅助库，比如放日志的库，或者说一些性能要求本身不是太高的库，我们可以放宽点这个Query响应时间，放宽到1秒或2秒内。

根据业务的重要等级程度来定这个Query响应时间的阀值。

这是一个很重要的指导思想，根据Query响应时间来规划你的性能容量。

容量分两种：性能容量和空间容量。空间容量很简单，就是放多少SIZE数据，几个T。

性能容量是更重要的，决定能否接住你的业务压力和承载。

大家要记住：你如果要抗的业务是百万级别的活跃用户，不是几百个用户的话，性能才是王道，性能上满足业务的需求才是最重要的。

你功能再牛B，产品再好，性能抗不了，其他都是扯淡，几百W人可能在几秒钟内就把你的整个系统和项目都搞挂掉，然后你们公司就抓瞎了。

苦心经营的用户也会大量流失，损失就惨重了。

性能是基础。性能能抗住，整个架构才有意义。性能抗不住，后面去考虑什么高可用，这些都没用。

MySQL对磁盘的利用特点

Binlog,redo log ,undo log顺序IO

MySQL的IO类型多种多样。

binlog，redolog，undolog，这些都是顺序IO写。

这一类东西没太多必要放到SSD上，顺序写在传统机械盘上也是很快的，放到SSD上有点暴殄天物，而且SSD存在写损耗和写寿命的问题，没必要放到SSD上。放到传统的SAS盘上就够用了。没必要放SSD。

SSD用来放datafile。因为datafile上发生的IO大部分是随机IO，SSD跑随机IO是非常有优势的。SSD固态盘+传统盘SAS盘一起混合存储。另外，备份盘也不要用SSD。

Datafile随机IO和顺序IO相结合

顺序IO永远是更快的。在数据库设计里，决定你是不是牛B的DBA或牛B的架构师，就是看你能否把一个业务尽可能设计为顺序IO，同时减少随机IO。举个例子：一个好友关系的业务，设计的时候希望一个query以顺序IO把好友关系就拿出来，那么怎么设计呢？

那在MySQL的InnoDB里面，我们可以利用InnoDB的一个特性：聚集索引表。（类似Oracle的IOT）。

利用这个特性，可以让用户的好友数据尽可能的聚集在一个page里或多个相邻的page里。那读的时候一个顺序读IO就能搞定了，性能大大提高。

好友关系表结构如下（前提表是InnoDB引擎）：

owner_id friend_id（好友id）

上面这样的两个字段做一个主键，InnoDB的主键就是聚集索引，那读取这两个字段肯定顺序IO就能搞定。

以前有什么数据库设计的书上，总说到，每个表上必须添加一个自增的主键的规范，其实规范死的，应对是活的，我上面举例的好友关系就没有用自增的主键，而是具有业务属性读取又频繁的两个业务字段作主键，反而性能更好。

因此，大家学习，不要去死记这些书上的什么规范和章程，而是应该真正学懂一个东西的原理，比如学好InnoDB的内部原理，然后在实际工作中，有原理的支撑，用原理去举一反三。

InnoDB的原理是很大的一块知识，需要日积月累的学习。大家可以多留意我的公众号，陆续会有InnoDB的一些文章推出来。

OLTP业务更多的需要随机IO

可以利用内存做缓存，从而减少随机IO

OLAP业务更多需要顺序IO

内存缓存作用不大

MySQL5.6之前是不支持修改page的，默认就是16K。

MySQL5.6以后可以改了，这个参数是innodb_page_size，但是MySQL5.6也只能修改为8K或4K，不能调大，直到MySQL5.7以上才可以改大为32K或64K。

对OLAP系统来说，更大的page，对性能的提升会有所帮助，因为OLAP系统都是比较大的查询，扫描的数据很多。

第二点：数据库设计不好

比如用了很多的数据库特性，像Trigger, 分区，非常多的存储过程、函数等等。

我们经常说什么，小而美，意思就是简单才是最好的。你把数据库的所有功能都用上了，数据库的性能自然就会被拖慢，可能碰到的BUG，底层故障的几率也就增加了。

所以大家要明白，一个好的数据库项目设计，是小而美，精而简的。另外，数据库也只是整体项目的一部分，像Trigger，存储过程这些能实现的，在整体项目里面肯定也可以用应用程序代码来完成。

所以，我们用MySQL，就是用它厉害的地方，比如：表、索引、事务这些，而不是要它所有的功能都得用上。

另外有一点，在MySQL5.6之前，生产环境的主库里面是不允许使用子查询的。

MySQL5.6之前子查询的性能特别差。（语法上是支持的，但SQL性能非常差）。

比如大家现在如果是用Oracle，想把Oracle迁移到MySQL上的话，建议大家用MySQL5.6版本，MySQL5.6对子查询的支持和性能上都做了较大的改善。

MySQL5.6跑子查询的性能会大大提高。

第三点：程序写太烂

这个估计当过DBA的同学应该都是有体会的，中小型的公司，程序员水平参差不齐。

特别是碰到很多刚入行的程序员（刚毕业的），更有可能，这些刚入行的程序员手里还接了一些进度非常赶的需求。那这种环境下开发出来的程序，想不烂都很难了。

当然，这也不怪我们的程序员，不能怪罪他们。

造成我上述现象的原因，主要还是国内的开发环境，也没办法，开发需求迫切（产品天天催活），程序员忙于赶工（长期加班），只能忙与实现业务程序，根本没时间去优化程序。

当然，这种环境下，对于我们DBA来说就是机会了。程序员写出来的烂SQL，复杂SQL，造成系统缓慢甚至崩溃，然后我们DBA出马，对这些烂SQL，慢SQL进行优化改造后，系统恢复正常，并日趋稳定。这也是很有成就，并且也会受到同事和领导尊重的一件事。

同时，DBA们也可以加强对程序员的培训，加强他们快速写出好SQL的能力。让他们花较少的时间，也能写出性能比较好，更得顺畅的SQL语句。这样，也可以给DBA减轻负担。

我本人就比较喜欢跟程序员讲培训，一来大家交流技术，都有收获，二来搞好关系，工作上有什么事以后需要协商的也好聊。这比请他们吃饭强。

我们针对程序写得太烂，主要有下面几个解决方向：

要让应用使用数据库连接池，特别是像基于JAVA开发的大型高并发应用里，一定要使用连接池。

使用连接池的好处：就是可以限制应用的连接数，另外，不用再额外地去创建每个连接，MySQL创建连接的开销也是较大的，因为创建一个新连接相当于MySQL创建了一个thread。

刚才我也提到，MySQL随着连接数上升会出现性能下降。

有写过程序代码的同学，应该也知道，在我们一般的PC笔记本上(一般4CORE)，你创建400个thread，每个thread就干 1+1+1+1+..简单活，再sleep下，你看看你的PC电脑卡还是不卡。你会发现你PC电脑的CPU都快跑满了。你要敢创建600个thread，那你的机器就快等着重启吧。这就是因为thread的开销，把CPU已经占满了。

复杂的SQL语句

这个刚才也说了，程序员写的SQL，一般都问题多多，他们毕竟太忙了，不会去考虑这个SQL的性能和运行情况。在一些情况下，程序员拼接的SQL，直接可以把整个系统干跨掉。

我举个简单例子：我们一个应用对数据库创建了10个连接(最大连接数=10)，这10个连接每个连接都同时跑相同的一条复杂SQL，执行这个复杂SQL至少要10分钟，那这10个连接在10分钟以内都只能执行这个复杂 SQL，其他后面的SQL全得堵着。

造成10分钟大部分应用不可用了，对吧。而且有可能引起雪崩，造成系统崩溃。

复杂SQL的优化，也是DBA很重要的一个活，需要通过监控的手段找出这些复杂SQL、慢SQL、烂SQL，然后给出优化建议到程序员（DBA要进行性能对比测试），让程序员改造下代码，才能让系统真正畅快并行地跑起来，像不堵车的高速公路一样。

那有人会问了，我们公司的程序员就是牛B，打死不改SQL代码，弄死了也不去优化，无法沟通。那我们该怎么办呢？

我们还是有办法的，我们还可以构建一个专用的从库（Slave库）来处理，你换个库查询，总可以了吧。

比如举我们公司的例子，我们的后台出报表的系统，就是连的从库查询，不给连主库。

无效逻辑

全表扫描

比如：update t set a = a + 1 ; 忘加where条件了。

以你要想你的系统能支撑百万级别的用户在线，那还得加入SQL审核系统（SQL Review），杜绝无效逻辑的SQL，和这类全表扫描的SQL。

SQL经过DBA审核通过后，才能发布上线。

另外，这种大的update SQL应该分批更新，把大的SQL任务拆成小的任务来跑。在MySQL里面来说，这是要特别注意的。

为什么要分批更新呢？

原因1. 上面说的，MySQL的一个query只能用到一个CORE。SQL事务太大，复杂度太高需要很久才能运行出来，容易造成拥堵。

原因2. 线上环境，MySQL一般都是Master/Slave架构，如果Master发生100W行的大更新事务，很可能造成SLAVE卡在那里，因为SLAVE是单线程结构，造成同步延迟。

MySQL写SQL，干成小事务SQL，快速执行，快速提交。让每个query完成得更快，让连接更快地释放出来。