老叶观点：MySQL开发规范之我见

来源：http://ourmysql.com/archives/1396

大多数MySQL规范在网上也都能找得到相关的分享，在这里要分享的是老叶个人认为比较重要的，或者容易被忽视的，以及容易被混淆的一些地方。

1、默认使用InnoDB引擎

【老叶观点】已多次呼吁过了，InnoDB适用于几乎99%的MySQL应用场景，而且在MySQL 5.7的系统表都改成InnoDB了，还有什么理由再死守MyISAM呢。

此外，频繁读写的InnoDB表，一定要使用具有自增/顺序特征的整型作为显式主键。

【参考】：[MySQL FAQ]系列 — 为什么InnoDB表要建议用自增列做主键。

2、字符集选择utf-8

【老叶观点】若为了节省磁盘空间，则建议选择latin1。建议选择utf-8通常是为了所谓的“通用性”，但事实上用户提交的utf-8数据也一样可以以latin1字符集存储。

用latin1存储utf-8数据可能遇到的麻烦是，如果有基于中文的检索时，可能无法100%准确(老叶亲自简单测试常规的中文完检索全不是问题，也就是一般的中文对比是没问题的)。

用latin1字符集存储utf-8数据的做法是：在web端(用户端)的字符集是utf-8，后端程序也采用utf-8来处理，但 character_set_client、character_set_connection、character_set_results、character_set_database、character_set_server 这几个都是 latin1，且数据表、字段的字符集也是latin1。或者说数据表采用latin1，每次连接后执行 SET NAMES LATIN1 即可。

【参考】：小谈MySQL字符集。

3、InnoDB表行记录物理长度不超过8KB

【老叶观点】InnoDB的data page默认是16KB，基于B+Tree的特点，一个data page中需要至少存储2条记录。因此，当实际存储长度超过8KB(尤其是TEXT/BLOB列)的大列(large column)时会引起“page-overflow存储”，类似ORACLE中的“行迁移”。

因此，如果必须使用大列(尤其是TEXT/BLOB类型)且读写频繁的话，则最好把这些列拆分到子表中，不要和主表放在一起存储。如果不太频繁，可以考虑继续保留在主表中。

当然了，如果将 innodb_page_size 选项修改成 8KB，那么行记录物理长度建议不超过4KB。

【参考】：[MySQL优化案例]系列 — 优化InnoDB表BLOB列的存储效率。

4、是否使用分区表

【老叶观点】在一些使用分区表后明显可以提升性能或者运维便利性的场景下，还是建议使用分区表。

比如老叶就在zabbix的数据库采用TokuDB引擎的前提下，又根据时间维度使用了分区表。这样的好处是保证zabbix日常应用不受到影响前提下，方便管理员例行删除过去数据，只需要删除相应分区即可，不需再执行一个非常慢的DELETE而影响整体性能。

【参考】：迁移Zabbix数据库到TokuDB。

5、是否使用存储过程、触发器

【老叶观点】在一些合适的场景下，用存储过程、触发器也完全没问题。

我们以前就是利用存储完成游戏业务逻辑处理，性能上不是问题，而且一旦需求有变更，只需修改存储过程，变更代价很低。我们还利用触发器维护一个频繁更新的表，对这个表的所有变更都将部分字段同步更新到另一个表中(类似物化视图的变相实现)，也不存在性能问题。

不要把MySQL的存储过程和触发器视为洪水猛兽，用好的话，没有问题的，真遇到问题了再优化也不迟。另外，MySQL因为没有物化视图，因此视图能不用就尽量少用吧。

6、选择合适的类型

【老叶观点】除了常见的建议外，还有其他几个要点：

6.1、用INT UNSIGNED存储IPV4地址，用INET_ATON()、INET_NTOA()进行转换，基本上没必要使用CHAR(15)来存储。

6.2、枚举类型可以使用ENUM，ENUM的内部存储机制是采用TINYINT或SMALLINT(并非CHAR/VARCHAR)，性能一点都不差，记住千万别用CHAR/VARCHAR 来存储枚举数据。

6.3、还个早前一直在传播的“常识性误导”，建议用TIMESTAMP取代DATETIME。其实从5.6开始，建议优先选择DATETIME存储日期时间，因为它的可用范围比TIMESTAMP更大，物理存储上仅比TIMESTAMP多1个字节，整体性能上的损失并不大。

6.4、所有字段定义中，默认都加上NOT NULL约束，除非必须为NULL(但我也想不出来什么场景下必须要在数据库中存储NULL值，可以用0来表示)。在对该字段进行COUNT()统计时，统计结果更准确(值为NULL的不会被COUNT统计进去)，或者执行 WHERE column IS NULL 检索时，也可以快速返回结果。

6.5、尽可能不要直接 SELECT * 读取全部字段，尤其是表中存在 TEXT/BLOB 大列的时候。可能本来不需要读取这些列，但因为偷懒写成 SELECT * 导致内存buffer pool被这些“垃圾”数据把真正需要缓冲起来的热点数据给洗出去了。

8、关于索引

【老叶观点】除了常见的建议外，还有几个要点：

8.1、超过20个长度的字符串列，最好创建前缀索引而非整列索引(例如：ALTER TABLE t1 ADD INDEX(user(20)))，可以有效提高索引利用率，不过它的缺点是对这个列排序时用不到前缀索引。前缀索引的长度可以基于对该字段的统计得出，一般略大于平均长度一点就可以了。

8.2、定期用 pt-duplicate-key-checker 工具检查并删除重复的索引。比如 index idx1(a, b) 索引已经涵盖了 index idx2(a)，就可以删除 idx2 索引了。

8.3、有多字段联合索引时，WHERE中过滤条件的字段顺序无需和索引一致，但如果有排序、分组则就必须一致了。

比如有联合索引 idx1(a, b, c)，那么下面的SQL都可以完整用到索引：

SELECT ... WHERE b = ? AND c = ? AND a = ?;  --注意到，WHERE中字段顺序并没有和索引字段顺序一致

SELECT ... WHERE b = ? AND a = ? AND c = ?;

SELECT ... WHERE a = ? AND b IN (?, ?) AND c = ?;

SELECT ... WHERE a = ? AND b = ? ORDER BY c;

SELECT ... WHERE a = ? AND b IN (?, ?) ORDER BY c;

SELECT ... WHERE a = ? ORDER BY b, c;

SELECT ... ORDER BY a, b, c;  -- 可利用联合索引完成排序

而下面几个SQL则只能用到部分索引：

SELECT ... WHERE b = ? AND a = ?;   -- 只能用到 (a, b) 部分

SELECT ... WHERE a IN (?, ?) AND b = ?;   -- 只能用到 (a, b) 部分

SELECT ... WHERE a = ? AND c = ?;   -- 只能用到 (a) 部分

SELECT ... WHERE a = ? AND b IN (?, ?);    -- 只能用到 (a, b) 部分

SELECT ... WHERE (a BETWEEN ? AND ?) AND b = ?;   -- 只能用到 (a) 部分，注意BETWEEN和IN的区别

SELECT ... WHERE a = ? AND (b BETWEEN ? AND ?) AND c = ?;    -- 只能用到 (a, b) 部分

下面的几个SQL完全用不到该索引：

SELECT ... WHERE b = ?;

SELECT ... WHERE b = ? AND c = ?;

SELECT ... WHERE b = ? AND c = ?;

SELECT ... ORDER BY b;

SELECT ... ORDER BY b, a;

从上面的几个例子就能看的出来，以往强调的WHERE条件字段顺序要和索引顺序一致才能使用索引的 “常识性误导” 无需严格遵守。

此外，有些时候查询优化器指定的索引或执行计划可能并不是最优的，可以手工指定最优索引，或者修改session级的 optimizer_switch 选项，关闭某些导致效果反而更差的特性(比如index merge通常是好事，但也遇到过用上index merge后反而更差的，这时候要么强制指定其中一个索引，要么可以临时关闭 index merge 特性)。

9、其他

9.1、哪怕是基于索引的条件过滤，如果优化器意识到总共需要扫描的数据量超过30%时(ORACLE里貌似是20%，MySQL目前是30%，没准以后会调整)，就会直接改变执行计划为全表扫描，不再使用索引。

9.2、多表JOIN时，要把过滤性最大(不一定是数据量最小哦，而是只加了WHERE条件后过滤性最大的那个)的表选为驱动表。此外，如果JOIN之后有排序，排序字段一定要属于驱动表，才能利用驱动表上的索引完成排序。

9.3、绝大多数情况下，排序的大家通常要来的更高，因此如果看到执行计划中有 Using filesort，优先创建排序索引吧。

9.4、利用 pt-query-digest 定期分析slow query log，并结合 Box Anemometer 构建slow query log分析及优化系统。

【参考】：[MySQL FAQ]系列 — EXPLAIN结果中哪些信息要引起关注。

备注：若无特别说明，以上规范建议适用于MySQL 5.6及之前的版本。5.7及之后的版本可能会有些变化，个别规范建议需要相应调整。

延伸阅读：

老叶观点：MySQL开发规范之我见的更多相关文章

[转发] 老叶观点：MySQL开发规范之我见
原文: http://imysql.com/2015/07/23/something-important-about-mysql-design-reference.shtml 老叶观点:MySQL开发 ...
老叶观点：MySQL开发规范之我见（更新版）
转自:http://mp.weixin.qq.com/s?__biz=MjM5NzAzMTY4NQ==&mid=207239419&idx=2&sn=bddbe0a657758 ...
从MySQL开发规范处看创业
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/n88Lpo/article/details/78099185 作者:唐勇.深圳市环球易购.MySQL ...
[转载] 根据多年经验整理的《互联网MySQL开发规范》
原文: http://weibo.com/p/2304181380b3f180102vsg5 根据多年经验整理的<互联网MySQL开发规范> 写在前面:无规矩不成方圆.对于刚加入互联网的朋 ...
建议收藏 - 专业的MySQL开发规范
为了项目的稳定,代码的高效,管理的便捷,在开发团队内部会制定各种各样的规范这里分享一份我们定义的MySQL开发规范,欢迎交流拍砖数据库对象命名规范数据库对象命名规范的对象是指数据库SCHEMA ...
一份完整的 MySQL 开发规范，进大厂必看！
作者:听风 https://www.cnblogs.com/huchong/p/10219318.html 一.数据库命令规范 1.所有数据库对象名称必须使用小写字母并用下划线分割 2.所有数据库对象 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
根据多年经验整理的《互联网MySQL开发规范》
一.基础规范使用 INNODB 存储引擎表字符集使用 UTF8 所有表都需要添加注释单表数据量建议控制在 5000W 以内不在数据库中存储图⽚.文件等大数据禁止在线上做数据库压力测试禁⽌ ...
《互联网MySQL开发规范》
一.基础规范使用 INNODB 存储引擎表字符集使用 UTF8 所有表都需要添加注释单表数据量建议控制在 5000W 以内不在数据库中存储图⽚.文件等大数据禁止在线上做数据库压力测试禁⽌ ...

随机推荐

Jquery在线引用地址：
转自:http://www.cnblogs.com/lkf18/archive/2012/12/11/2813241.html 1. 很多网站都是使用这种方式引入,客户的浏览器可能已经缓存过了 jqu ...
poj1006_Biorhythms
英语真差劲啊,看题目没看明白,无奈重新开始手抄题目,突然发现一句话 “For each cycle,you will be given the number of days form the begi ...
ASP.NET数据控件
数据服务器控件就是能够显示数据的控件,与那些简单格式的列表控件不同,这些控件不但提供显示数据的丰富界面(可以显示多行多列数据并根据用户定义来显示),还提供了修改.删除和插入数据的接口. ASP.NET ...
MySQL中的数据类型
文本 CHAR(*):最多255个字节的定长字符串,它的长度必须在创建时指定 VARCHAR(*):最多255个字节的可变长度字符串,它的长度必须在创建时指定 TEXT:最大长度为64K字符的变长文本 ...
在centos下安装django
这里有一个不错的Django的学习资料.先收藏一下,以备后用.谢谢 http://www.ziqiangxuetang.com/django/django-install.html 在centos下安 ...
MariaDB之基于Percona Xtrabackup备份大数据库[完整备份与增量备份]
MariaDB之基于Percona Xtrabackup备份大数据库[完整备份与增量备份] 1.Xtrabackup的安装 percona-xtrabackup-2.2.3-4982.el6.x86_ ...
14种网页图片和文字特效的jQuery插件代码
1.网页图片3d旋转jQuery代码演示和下载地址 2.存css3实现的tabl选项卡代码演示和下载地址 3.jQuery标签旋转代码演示和下载地址 4.鼠标悬浮的图片选项卡代码演示和下载地址 ...
POJ C++程序设计编程题＃1 大整数的加减乘除
编程题#4:大整数的加减乘除来源: POJ (Coursera声明:在POJ上完成的习题将不会计入Coursera的最后成绩.) 注意: 总时间限制: 1000ms 内存限制: 65536kB 描述 ...
CentOS 7服务
重启防火墙service firewalld start/restart/stop 使用systemctl来启动/停止/重启服务要启动一个服务,你需要使用如下命令:# systemctl start ...
HBase分布式安装
安装HBase之前需要先安装Hadoop,因为HBase是运行在Hadoop集群上的.安装Hadoop可以参照http://www.cnblogs.com/stGeekpower/p/3307289. ...

老叶观点：MySQL开发规范之我见

来源：http://ourmysql.com/archives/1396

老叶观点：MySQL开发规范之我见的更多相关文章

随机推荐

热门专题