从程序员的角度深入理解MySQL

前言

今天我将站在程序员的角度以MySQL为例探索数据库的奥秘！

数据库基本原理

我对DB的理解

1、数据库的组成：存储 + 实例

不必多说，数据当然需要存储；存储了还不够，显然需要提供程序对存储的操作进行封装，对外提供增删改查的API，即实例。

一个存储，可以对应多个实例，这将提高这个存储的负载能力以及高可用；多个存储可以分布在不同的机房、地域，将实现容灾。

2、按Block or Page读取数据

用大腿想也知道，数据库不可能按行读取数据（Why? ^_^）。实质上，数据库，如Oracle/MySQL，都是基于固定大小（比如16K）的物理块（Block or Page，我这里就不区分统一称为Block）来实现调度和管理的。要知道Block是数据库的概念，如何对应到文件系统呢？显然需要指出“这个Block的地址在哪里”，当查找到地址后，读取固定大小的数据就相当于完成了Block的读取了。

数据库很聪明的，它不会仅仅只读取需要读取的Block，它还会替我们把附近的Block块都读取加载至内存。实际上，这是为了减少IO次数，提高命中率。事实上，一个Block块的附近Block也是热点数据，这种处理方式很有必要！

3、磁盘IO是数据库的性能瓶颈

毫无疑问，数据在磁盘上，少不了磁盘IO。什么磁头旋转，定位磁道，寻址的过程，就不说了，我们是程序员，也管不了这些。但是这个过程确实是非常耗时的，和内存读取不是一个数量级，所以后来出现了很多方式来减少IO，提升数据库性能。

比如，增加内存，让数据库把数据更多的加载至内存。内存虽好，但也不能滥用，为什么这么说呢？假设数据库中有100G数据，如果都加载至内存，也就说数据库要管理100G磁盘数据+100G内存数据，你说累不累？（数据库要处理磁盘和内存的映射关系，数据的同步，还要对内存数据进行清理，如果涉及数据库事务，又是一系列复杂操作......）不过这里需要指出的是，为了加快内存查找速度，数据库一般对内存进行HASH存放。

比如，利用索引，索引相比内存，是一个性价比非常高的东西，后文详细介绍MySQL的索引原理。

比如，利用性能更好的磁盘...（和咱们就没关系呢）

4、提出一些问题思考下：

为什么我们说利用delete删除一个表的数据较trancate一个表要慢？

【一个按行查找删除，多费劲；一个基于Block的体系结构删除】

为什么我们说要小表驱动大表？

【小表驱动大表会快？什么鬼？M*N和N*M不是一样的么？有鬼的地方，就有索引！】

探索MySQL索引背后的原理

对于绝大数的应用系统，读写比例在10:1，甚至100:1，而且insert/update很难出现性能问题，遇到最多的，最棘手的就是select了，select优化是重中之重，显然少不了索引！

说起MySQL的索引，我们会冒出很多这些东西：BTree索引/B+Tree索引/Hash索引/聚集索引/非聚集索引...这么多，晕头！

索引到底是什么，想解决什么问题？

老生常谈了，官网说MySQL索引是一种数据结构，索引的目的就是为了提高查询效率。

说白了，不使用索引的话，磁盘IO次数比较多！要想减少磁盘IO次数，怎么办？

我们想通过不断缩小想要获取的数据的范围来筛选出最终想要的结果，把每次查找数据的磁盘IO次数控制在一个很小的数量级，最好是常数数量级。

为了应对上述问题，B+Tree索引出来了！

Hello，B+Tree

在MySQL中，不同存储引擎对索引的实现方式是不同的，这里将重点分析MyISAM和Innodb。

MyISAM引擎的B+Tree索引结构

我们知道对于MyISAM引擎而言，数据文件和索引文件是分离的。从图中也可以看出，通过索引查找到后，就得到了数据的物理地址，然后根据地址定位数据文件中的记录即可。这种方式也叫"非聚集索引"。

而对于Innodb引擎而言，数据文件本身是索引文件！通俗点说，叶子节点上，MyISAM存储的是记录的物理地址，而Innodb上存储的是数据内容，这种方式即"聚集索引"。

另外一点需要注意的是，对于Innodb而言，主键索引中叶子节点存储的是数据内容，而普通索引的叶子节点中存储的是主键值！也就是说，对于Innodb的普通索引字段查找，先通过普通索引的B+Tree查找到主键后，然后通过主键索引的B+Tree进行查找。从这里你可以看出，对于Innodb而言，主键的建立非常重要！

而对于MyISAM而言，主键索引和普通索引仅仅的区别在于主键只需要查找到一条记录即可停止，而普通索引允许重复，找到一条记录后需要继续查找，在结构上没有区别，如上图所示。

深入B+Tree

提几个问题：

①. 为什么B+Tree把真实的数据放到叶子节点，而不是内层节点？

②. 为什么我们说索引字段要尽可能短，最好是单调递增的？

③. 为什么复合索引存在最左匹配原则？

④. 范围查询（>,<,between,like）对最左匹配有什么影响？

关于B+Tree的一些数学理论，咱们就不玩了，至少一点可以肯定的是：数据表的数据量N=F(树的高度h，每个Block存储的索引的个数m)。在N一定的情况下，索引字段越小，那么m会越大，这意味着h将越小！树越低，当然查找的更快！

如果内层节点存放真实的数据，显然m会变小，树将变高。

在实际应用中，我们应该尽可能采用单调递增的字段作为主键，一方面不会使得索引的数据结构变大，减小了索引占用的空间；另一方面也不会频繁的分裂B+Tree，使得效率下降。

比如复合索引(name,age,sex)，B+Tree会优先比较name来确定下一步的搜索方向。如果突然来了个(age,sex)，根本上就无从下手。这也是符合常理的，对于一本书，我们说“找到第几章第几节的XXX”，从没有听说过“找到第几节的XXX”！这是复合索引的重要特性，即最左匹配特性。

假设存在复合索引(name,age,sex)，我们在进行select的时候，并没有按照这个顺序进行，而是sex = 'man' and name = 'zfz' and age = 27，是否会使用索引呢？数据库是很聪明的，在SQL优化的时候，会自动帮助我们调整！但是如果缺失了复合索引的第一列，数据库也将无能为力呢。

对于最左匹配，MySQL会一直向右匹配直到遇到范围查询就停止匹配。什么意思？比如复合索引(name,age,sex)，对于name = 'zhangfengzhe' and age > 26 and sex = 'man'，实际上只利用到了复合索引的name列。

想利用索引，就得“干净”

什么叫“干净”？就是不要让索引参与计算！比如在索引上应用函数，很可能导致索引失效。为什么呢？

其实不用想，B+Tree上存储的是数据，要比较的话，需要把所有的数据都应用上函数，显然成本太大。

想建立索引，看看区分度

索引虽然物美价廉，但是也别乱来。count(distinct col) / count(*)可以算一下col的区分度，显然对于主键而言，就是1。区分度太低的话，可以考虑下，是否还有必要建立索引呢？

Hash索引

这里并不是要深入分析Hash索引，而是要说明一下Hash的思想真是无处不在！

在MySQL的Memory存储引擎中，存在hash函数，给一个key，通过hash函数进行计算得到地址，所以通常情况下，hash索引查找，会非常快，O（1）的速度。但是也存在hash冲突，和HashMap一样，通过单链表的形式解决。

思考下，hash索引是否支持范围查询呢？

显然是不支持的，它只能给一个KEY去查找。就如同HashMap一样，查找key包含"zhangfengzhe"的，会很快么？

SQL优化神器：explain

SQL优化的场景很多，网上的技巧也很多，完全记不住！

要想彻底解决这个问题，我想只有把索引背后的数据结构和原理做适当的理解，遇到书写SQL或者SQL慢查询的时候，我们有基础去分析，再利用好explain工具去验证，就应该问题不大呢。

explain查询的结果，可以告诉你哪些索引正在被使用，表是如何被扫描的等等。这里我将演示个Demo。

数据表student：

注意复合索引(age,address)

符合最左前缀匹配

复合索引失效

OK，到这里，准备结束了，查询容易，优化不易，且写且珍惜！

扩展阅读

来源：https://www.jianshu.com/p/aa1f0f29b4f8

从程序员的角度深入理解MySQL的更多相关文章

从程序员的角度分析微信小程序（编程语言：用到什么学什么）
从程序员的角度分析微信小程序(编程语言:用到什么学什么) 一.总结一句话总结:微信小程序原理就是用JS调用底层native组件,和React Native非常类似.(需要时,用到时再学) 1.选择语 ...
【VS开发】程序员对内存的理解
程序员对内存的理解在C和C++语言开发中,指针.内存一直是学习的重点.因为C语言作为一种偏底层的中低级语言,提供了大量的内存直接操作的方法,这一方面使程序的灵活度最大化,同时也为bug埋下很多隐患. ...
从程序员的角度分析微信小程序
昨天朋友圈被微信小程序刷爆了. 我赶快在书架上拿出三年前买的书,把上面的土擦干净,压压惊. 作为一个并不是资深的程序员. 从程序员的角度分析一下微信小程序,欢迎指点. 首先吐槽微信小程序只发了200 ...
转载：从程序员的角度看ASCII, GB2312, UNICODE, UTF-8
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html. 一.字符编码是怎么回事 0. 概念字节是计算机的最基本存储单位,一个 ...
C# 中重载自增自减操作符的具体运算原理 ----从C++程序员的角度看C#自增操作符重载的实质
看了看C#的运算符重载,发现与C++打不相同.刚刚被C#的自增操作符坑了,现在来分享一下. 先定义一个类 class A { public int i; public A(int I) { i = I ...
资深程序员总结：彻底理解Spring容器和应用上下文
点关注,不迷路:持续更新Java架构相关技术及资讯热文!!! 有了Spring之后,通过依赖注入的方式,我们的业务代码不用自己管理关联对象的生命周期.业务代码只需要按照业务本身的流程,走啊走啊,走到哪 ...
从程序员的角度设计一个Java的神经网络
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 来自维基百科: 人工神经网络(ANN)或连接系统是受生物神经网络启发构成生物大脑的计算系统.这样的系统通过考虑例子来学习(逐步提高性能)来完成任 ...
PHP程序员最容易犯的Mysql错误
对于大多数web应用来说,数据库都是一个十分基础性的部分.如果你在使用PHP,那么你很可能也在使用MySQL—LAMP系列中举足轻重的一份子. 对于很多新手们来说,使用PHP可以在短短几个小时之内轻松 ...
MySQL 创始人:写代码比打游戏爽，程序员应多泡开源社区
王练发布于2017年09月04日收藏 43 开源中国全球专享福利,云栖大会购票大返现!>>> 根据StackOverflow的最新调查,MySQL仍然是全世界最流行的数 ...

随机推荐

jQuery解析JSON出现SyntaxError: JSON.parse: unexpected character at line 1 column 2 of the JSON data
SyntaxError: JSON.parse: unexpected character at line 1 column 2 of the JSON data 我在使用$.parseJSON解析后 ...
动态代理AOP实现方法过滤
上一节实现了动态代理,接下来有时候,我不需要在每一个方法都要记录日志,做权限验证等等. 所有就有了这样的需求.AOP实现特定方法过滤,有选择性的来对方法实现AOP 拦截.就是本节标题所示. 举个例 ...
get与post两种方式的优缺点
get: get是从服务器上获取数据,post是向服务器传送数据: get传送的数据量较小,不能大于2KB.post传送的数据量较大,一般被默认为不受限制.但理论上,IIS4中最大量为80KB,IIS ...
AngularJS绑定数据
绑定数据总共有三种方式1.{{}}最常用2.ngbind3.ng-model 主要用在input标签
Deep Learning 学习笔记（4）：Logistic Regression 逻辑回归
逻辑回归主要用于解决分类问题,在现实中有更多的运用, 正常邮件or垃圾邮件车or行人涨价or不涨价用我们EE的例子就是: 高电平or低电平同时逻辑回归也是后面神经网络到深度学习的基础. (原来 ...
java-虚拟机-索引
底层 JVM之堆内存(年经代,老年代) Java内存泄露的理解与解决内存溢出和内存泄漏的区别.产生原因以及解决方案 JVM内容梳理 Jvm的体系结构
Swift中用正规表达式判断String是否是手机号码
func isTelNumber(num:NSString)->Bool { var mobile = "^1(3[0-9]|5[0-35-9]|8[025-9])\\d{8}$&qu ...
Java微信公众平台开发【番外篇】(七)--公众平台测试帐号的申请
转自:http://www.cuiyongzhi.com/post/45.html 前面几篇一直都在写一些比较基础接口的使用,在这个过程中一直使用的都是我个人微博认证的一个个人账号,原本准备这篇是写[ ...
asp:GridView控件的使用
使用asp:GridView显示一个统计的表格 cs样式: <style> table.gridview_m { border-colla ...
微信小程序中的倒计时
这是我项目中的例子,如果有更好的建议欢迎留言 ,一起学习 //获取时间 var sekillStartTime = resultLis[0].planGroup0.sekillStartTime;// ...

从程序员的角度深入理解MySQL

从程序员的角度深入理解MySQL的更多相关文章

随机推荐

热门专题