本文由作者郑智辉授权网易云社区发布。

0.前言

本文通过分析线上MySQL慢查询日志，定位出现问题的SQL，进行业务场景分析，结合索引的相关使用进行数据库优化。在两次处理问题过程中，进行的思考。

1.简要描述

在九月底某个新上的游戏业务MySQL慢查询日志

# Time: 2017-09-30T14:56:13.974292+08:00

# Query_time: 6.048835  Lock_time: 0.000038 Rows_sent: 0  Rows_examined: 12884410SET timestamp=1506754573;SELECT status, sdkid, appid, app_orderid, matrix_orderid, pay_orderid, platform, sdk_version, app_channel, pay_channel, serverid, roleid, INET6_NTOA(userip), deviceid, devic

e_name, productid, product_count, product_name, matrix_uid, app_uid, order_currency, order_price, activityid, create_time, expired_time, pay_method, pay_mode, ship_url, rese

rved, pay_time, recv_time, ship_time, pay_sub_method, pay_amount, free_amount, pay_currency, pay_total_money, pay_free_money, credit, pay_fee, extra_columns, is_test    FROM MatrixOrderSucc    WHERE status >= 200 AND status < 300 AND recv_time < DATE_SUB(NOW(), interval 20 SECOND) AND recv_time > DATE_SUB(NOW(), interval 24 HOUR)    ORDER BY retry    LIMIT 1;

第一次处理方式：在该表上添加了(recv_time,status)索引，然后慢查询没有；

正当以为事情解决的时候，该游戏10月份大推，然后数据量激增，然后慢查询又出现了。

第二次处理方式：删除之前的索引，然后改为对(status,recv_time）添加索引。然后至今该SQL未出现慢查询了。

线上环境说明：

MySQL 5.7.18
表引擎为Innodb
系统内核：Debian 3.16.43-2

接下来说说这两次处理过程中的测试和分析。

2.SQL分析

sql分析：

当时九月底时该表的数据达到1200w行，但是由于没有匹配得上的索引,所以全表扫描耗时6秒多。

业务分析:

联系了开发同事，了解一下这个语句的业务场景。该语句用于查找失败订单(status标记）并且时间在20秒之前一天以内(recv_time)的数据。并得知其实满足status条件的订单其实只是少量的。

小结：
可以看出数据和固定时间范围内的数据量有关系。10月份大推后，固定时间范围内的数据激增。

3.第一次处理

3.1 数据情况

将数据导到测试环境进行了数据测试。
通过下图的sql，数据基本分析如下：

*  满足单独status条件的数据大概就3w条   

*  满足单独recv_time条件的数据大概是77w条  

*  虽然status字段的数据离散型不是很好，但是满足条件的数据很少，数据的筛选性还是很不错的。

3.2 测试

加了索引之后。(recv_time,status)

mysql> explain select status, sdkid, appid, app_orderid, matrix_orderid, pay_orderid, platform, sdk_version, app_channel, pay_channel, serverid, roleid, INET6_NTOA(userip), deviceid, device_name, productid, product_count, product_name, matrix_uid, app_uid, order_currency, order_price, activityid, create_time, expired_time, pay_method, pay_mode, ship_url, reserved, pay_time, recv_time, ship_time, pay_sub_method, pay_amount, free_amount, pay_currency, pay_total_money, pay_free_money, credit, pay_fee, extra_columns, is_test from MatrixOrderSucc WHERE status >= 200 AND status < 300 AND recv_time < DATE_SUB('2017-10-12 14:48:49', interval 20 SECOND) AND recv_time > DATE_SUB('2017-10-12-14:48:49', interval 24 HOUR);

+----+-------------+-----------------+------------+-------+---------------+-----------+---------+------+---------+----------+-----------------------+

| id | select_type | table           | partitions | type  | possible_keys | key       | key_len | ref  | rows    | filtered | Extra                 |

+----+-------------+-----------------+------------+-------+---------------+-----------+---------+------+---------+----------+-----------------------+

|  1 | SIMPLE      | MatrixOrderSucc | NULL       | range | recv_time     | recv_time | 6       | NULL | 1606844 |    11.11 | Using index condition |

+----+-------------+-----------------+------------+-------+---------------+-----------+---------+------+---------+----------+-----------------------+1 row in set, 1 warning (0.00 sec)

执行计划：刚加上的索引确实被用上了。
正式环境临时添加了该索引之后慢查询确实消失了。

隐忧：

从执行计划里的key_len可以知道该sql，在进行数据筛选的时候只以recv_time进行数据过滤的，status字段并没有用上场。因为联合索引左侧字段用了范围查询，则其他字段无法用上。

背景知识

数据查找过程：1. 如果走了辅助索引* 先去辅助索引查找。返回索引字段和主键字段(index_column, pk column)，假设数据N行，那么这里是N次的数据顺序访问* 再去聚集索引查找整行数据：N次随机访问

数据搜索代价：b+树高度次随机访问+N次顺序访问+N次随机访问。

ps:当然如果辅助索引能覆盖了SQL查询的字段，就不需要去主表查完整整行数据了。

2.如果直接全表扫描：

数据搜索代价：全表总数次顺序访问

磁盘顺序访问和随机访问时间消耗大概查了两个数量级。

所以有可能：MySQL会估算一下，两者的代价来决定是否走索引查找。

所以上面的sql在mysql 5.6之前执行过程：

通过recv_time条件在辅助索引搜索，返回N条记录
聚集索引查找整行数据
返回到server 段然后再进行status字段的条件筛选
server层返回数据给客户端

然而，MySQL 5.6之后多了index condition push down的优化功能，就是能将索引筛选下推。
例如:
执行计划里的Using index condition是index push down的意思，是mysql 5.6后做的优化，
这个功能的效果就是，能将步骤3的数据筛选放在步骤2之前，因为既然从辅助索引取回的数据包含status字段，那么进行一下数据过滤，然后再去主表拿数据，就能减少随机访问的次数。

4.第二次处理

4.1 线上数据

10月游戏大推每日数据激增。此时全表数据大概2800w。
再去通过explain 查看执行计划的时候，已经从原来的走索引，又变回了全表扫描。
慢查询的时间从之前的6秒上升到18秒

4.2 问题

为什么之前走索引现在会不走了？
有同事说：在应用层 force index强制走之前的索引就好了。因为可能是MySQL的优化器优化得不够好。导致走了不良的执行计划。我认为：这个问题和应用问题和MySQL优化关系不大，是索引建得不对。如果在应用层做修改，第一需要经过测试回归才能发布版本，耗时长；第二，force index 感觉比较死板，万一以后表结构发生变更，这个索引不存在了，会存在问题。

线上数据分析:

单独满足recv_time条件的数据达到600多万行。（因为游戏大推，每日数据激增),原来只有77w行。
单独满足status条件的数据变化不大。

MySQL采用全表扫描的结论：

因为辅助索引返回的数据激增，导致主表随机访问的次数增加，发现还不如直接全表扫描来得快。

当然MySQL的SQL优化代价模型应该包含很多因素，后续有待研究。

4.3 测试

还是利用之前导出的1200w的测试数据，对(status,recv_time)条件索引进行测试。
通过下图可以看到:

查询能走上索引，并且key_len=10，表明索引的两列都派上用上了。
并且执行计划里的rows数量明显比(recv_time，status)索引的查询要少很多。

4.4 问题

4.4.1 上文不是联合索引用了范围查询，第二列排不上用场吗？为什么这里能用recv_time搜索数据？

我的理解：
1.status虽然在sql里看起来是范围查询，但是MySQL能感知到status数据的离散程度，然后将status查询改为IN(200)，IN在MySQL里不算范围查询。
2.其实这个挺好理解的。结合索引的B+树的结构。如果是IN，相当于在辅助索引里通过第一列得出的是N个B+子树(以第二索引字段进行构建的子树）,那么肯定还是可以对第二列进行二叉树搜索的。

所以关键就是在第一列搜索完后，剩下的数据是否能对第二列recv_time进行二叉树搜索。

4.4.2 为什么recv_time范围查询没做上面的IN操作转换？

因为recv_time真的是足够离散。

4.5 索引选择

在索引选择，在有(recvtime,status) (status,recvtime) (status)三个索引下

  KEY `status` (`status`,`recv_time`),  

  KEY `status_2` (`status`),

  KEY `recv_time` (`recv_time`,`status`)

mysql> explain SELECT count(*) FROM MatrixOrderSucc WHERE status >= 200 AND status < 300 AND recv_time < DATE_SUB('2017-10-12 14:48:49', interval 20 SECOND) AND recv_time > DATE_SUB('2017-10-12 14:48:49', interval 24 HOUR);

+----+-------------+-----------------+------------+-------+---------------------------+--------+---------+------+-------+----------+--------------------------+

| id | select_type | table           | partitions | type  | possible_keys             | key    | key_len | ref  | rows  | filtered | Extra                    |

+----+-------------+-----------------+------------+-------+---------------------------+--------+---------+------+-------+----------+--------------------------+

|  1 | SIMPLE      | MatrixOrderSucc | NULL       | range | status,status_2,recv_time | status | 10      | NULL | 58650 |     8.94 | Using where; Using index |

+----+-------------+-----------------+------------+-------+---------------------------+--------+---------+------+-------+----------+--------------------------+1 row in set, 1 warning (0.00 sec)

可以看出系统选择了(status,recv_time)索引。
因此在正式环境删除之前的索引，建新的索引，慢查询消失。

5.小结

5.1 不是离散性不好的字段就不能加索引，也要看数据筛选性能
5.2 时间类型的字段不大合适放在联合索引的左边
5.3 索引最左匹配原则 5.4 测试说明
5.4.1 数据是通过mysqldump不加锁方式导到测试环境重新import建立的。
5.4.2 测试的SQL:最好不要选select count() from table ，因为在这个场景中select count() 会走索引扫描，是不必再到主表拿整行数据的；和实际场景的SQL是不一样。

参考文档

更多网易技术、产品、运营经验分享请访问网易云社区。

一次MySQL线上慢查询分析及索引使用的更多相关文章

MySQL选错索引导致的线上慢查询事故
前言又和大家见面了!又两周过去了,我的云笔记里又多了几篇写了一半的文章草稿.有的是因为质量没有达到预期还准备再加点内容,有的则完全是一个灵感而已,内容完全木有.羡慕很多大佬们,一周能产出五六篇文章, ...
mysql优化：慢查询分析、索引配置优化
一.优化概述二.查询与索引优化分析a.性能瓶颈定位show命令慢查询日志explain分析查询profiling分析查询b.索引及查询优化三.配置优化 max_connections back_log ...
MySQL的慢查询分析
慢查询分析日最初是用来捕获比较“慢”的查询,在mysql5.1 + 版本中,慢查询的功能被加强,可以通过设置long_query_time为0来捕获所有的查询,而且查询的响应时间已经可以做到微妙级别. ...
MySQL慢日志查询分析方法与工具
MySQL中的日志包括:错误日志.二进制日志.通用查询日志.慢查询日志等等.这里主要介绍下比较常用的两个功能:通用查询日志和慢查询日志. 1)通用查询日志:记录建立的客户端连接和执行的语句. 2)慢查 ...
一次 MySQL 线上死锁分析实战
关键词:MySQL Index Merge 前言 MySQL 的锁机制相信大家在学习 MySQL 的时候都有简单的了解过,那既然有锁就必定绕不开死锁这个问题.其实 MySQL 在大部分场景下是不会存在 ...
【mysql】截取查询分析
1. 慢查询日志 1.1 是什么 (1)MySQL的慢查询日志是MySQL提供的一种日志记录,它用来记录在MySQL中响应时间超过阀值的语句,具体指运行时间超过long_query_time值的SQL ...
mysql的in查询分析
群里山楂大仙和电台大神探讨到mysql的in查询的问题,问题如下: student表有class_id的索引,但是只查询一个的时候用索引,查两个就不用索引了这是很奇怪的现象,我试了一下也是这样,真是 ...
关于mysql中like查询是否通过索引的测试
测试mysql的like语句是否通过索引时得到结果如下: 图片1: 图片2: 图片3: 通过上述3组图片我想大家很容易愤青我使用的'%8888888%','%8888888'和'8888888%'3中 ...
【MySQL 线上 BUG 分析】之多表同字段异常：Column ‘xxx’ in field list is ambiguous
一.生产出错! 今天早上11点左右,我在工作休息之余,撸了一下猫.突然,工作群响了,老大在里面说:APP出错了! 妈啊,这太吓人了,因为只是说了出错,但是没说错误的信息.所以我赶紧到APP上看看. 这 ...

随机推荐

git/github基本命令
Git与项目 git的使用,主要包括: 本地仓库的命令远程仓库的命令项目需求.页面.模型类的设计,及页面的使用 sudo apt-get install git 安装成功后,运行如下命令 git ...
js动态加载数据到文本框指定的位置
html代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www. ...
Eclipse 安装Hibernate Tools 工具提高开发效率
1.打开Eclipse 开发工具 2.配置使用hibernate Tools 3.选择search 选项卡,搜索 hibernate 关键字点击Install Next finish ...
java中回调函数的使用
package com.huawei.common; import java.sql.ResultSet;import java.sql.SQLException; /** * 回调函数 * @aut ...
python传值&值引用
[python传值&值引用] 和其他语言不一样,传递参数的时候,python不允许程序员选择采用传值还是传引用.Python参数传递采用的肯定是“传对象引用”的方式.实际上,这种方式相当于传值 ...
23.Merge k Sorted Lists (Array, Queue; Sort)
Merge k sorted linked lists and return it as one sorted list. Analyze and describe its complexity. 思 ...
thinkphp 3.2.3 addAll方法的坑
在批量插入一组数据的时候,总是提示以下错误 Insert value list does not match column list: Column count doesn't match value ...
FTP上传下载--python
import socket import struct import json import subprocess import os class MYTCPServer: address_famil ...
在Linux（Ubuntu）下安装Arial、Times New Roman等字体
在Linux下做文档.作图的时候,可能需要用到Arial和Times New Roman等字体.但是由于版权问题,Linux一般是不直接提供这些字体的. 注意字体也是有版权的!不过有版权也不代表一定会 ...
Trait 概览
Trait是PHP 5.4引入的新概念,看上去既像类又像接口,其实都不是,Trait可以看做类的部分实现,可以混入一个或多个现有的PHP类中,其作用有两个:表明类可以做什么:提供模块化实现.Trait ...

一次MySQL线上慢查询分析及索引使用