MySQL索引底层数据结构

一、何为索引？

1、索引是帮助数据库高效获取数据的排好序的数据结构。

2、索引存储在文件中。

3、索引建多了会影响增删改效率。

（下面这张图为计算机组成原理内容，每查询一次索引节点，都会进行一次磁盘IO读取，即要寻道和旋转）

二、MySQL索引结构为什么是B+树？

MySQL 建索引可使用的数据结构有B+树和Hash两种，但是Hash用得很少，优点是可以快速定位到某一行，缺点是不能解决范围查询问题。

对于如果不需要使用范围查询、只需要精准查询的场景，可以使用Hash索引方法，比如查电话号码。

再说说主流的索引方法B+树，先说下为什么不用别的树结构，再说为什么用B+树。

1、为什么不用二叉树？

如果碰到下面这种单边增长的极端情况，查找节点4和顺序查找没区别。（这种特殊情况的二叉树等同于链表，时间复杂度为O(n)）

2、为什么不用红黑树？

红黑树是一颗平衡二叉树，数据量大的时候，树的深度也很深，如果树的深度有20层，而查找的数据在叶子节点，就要进行20次IO操作，性能低。

3、为什么不用B树？

B树的特点：

叶子节点具有相同的深度
叶子节点的指针为空
叶子节点中的数据key从左到右递增排列

其实B树就是在横向做了文章，一个节点可以存储更多数据（大节点包含很多小节点），这样相对来说，深度就会变浅。

提问：横向的节点怎么查，比如说查找上图中的节点77？

从磁盘中把大节点查找出来，把这个大节点加载进内存中，节点77实际上是在内存中查找的，在内存中做的是随机访问，速度很快，跟磁盘的寻道和旋转相比的话，基本可以忽略不计。

提问：为什么不可以让B树横向的度无限增大，这样不就深度为1，查找不就更快了？（度的含义：节点的数据存储个数）

本来是想通过一次IO操作把一个大节点加载进内存，如果一个大节点的数据量太大的话，则内存和硬盘一次交互没办法交换那么多数据，假设一次只能交换1页（4k）的数据（有上限，也有可能是几十页，和计算机硬件有关），意味着CPU去硬盘上做一次IO操作只能取1页的数据，那么当一个大节点的数据量太大时，仍要进行多次IO操作。因此，度是有上限的，MySQL会根据计算机硬件自动进行度的优化，一个大节点通常为1页空间。

4、为什么使用B+树？（B+树是B树的变种，索引做了冗余，存了多份，但是没关系，索引只占很小空间，比如下图中的15节点）

B+树的特点：

非叶子节点不存储data，只存储key，可以增大度（相比B树，B+树的深度更浅）
叶子节点不存储指针
顺序访问指针，提高区间访问的性能（实际上是双向指针）

提问：为什么说B+树可以增大度？

因为非叶子节点只存储索引一个值，不存储data（B树会存储data），而大节点大小是确定的，因此大节点就可以存储更多的数据，即度可以变得更大。这样既保证度可以达到最大，又保证一个大节点通过一次IO操作可以加载进内存。（非叶子节点度更大，深度更浅，只有非叶子节点才影响查找次数，叶子节点是最后一次查找，对总的查找次数是没有影响的，因此把data全部移到了叶子节点）

提问：为什么叶子节点之间还需要用指针？（一个大节点的尾节点和下一个大节点的头节点之间的指针连接）

方便范围查询。比如查找上图中key>18，如果没有指针会非常麻烦，必须从头开始查找，如果有指针，则可以直接遍历key>18的叶子节点（链表）。

B+树索引的性能分析：

一般使用磁盘I/O次数评价索引结构的优劣
预读：磁盘一般会顺序向后读取一定长度的数据（页的整数倍）放入内存
局部性原理：当一个数据被用到时，其附近的数据也通常会立马被使用
B+树的大节点大小设为等于一个页，每次新建大节点直接申请一个页的空间，这能保证一个大节点物理上也存储在一个页里，大节点载入只需一次IO操作
B+树的度d一般会超过100，因此高度h非常小（一般为3~5之间）

三、MySQL底层是怎么用B+树来存储数据的？

MySQL有两种常见的存储引擎：InnoDB（默认）、MyISAM（用得少，在MySQL8.0中被废弃掉了），存储引擎范围是表级别的。

1、MyISAM索引实现（非聚集）

索引文件和数据文件是分离的
索引结构的叶子节点value存储的是文件指针。

.frm是表结构文件，.MYD是数据文件（MyISAM Data），.MYI是索引文件（MyISAM Index）。

MyISAM主键索引查找流程：先通过.MYI文件找到对应索引的文件指针，再根据文件指针去.MYD文件中定位对应的那行数据。

MyISAM普通索引查找流程：和主键索引查找流程一致。

2、InnoDB索引实现（聚集）

数据文件本身就是索引文件
表数据文件本身就是按B+树组织的一个索引结构文件
聚集索引的叶子节点包含了完整的数据记录
表必须有主键，且推荐使用整型的自增主键
普通索引结构叶子节点存储的是主键值

.frm是表结构文件，.ibd是数据和索引文件（InnoDB Data）

InnoDB主键索引查找流程：通过.ibd文件找到对应的索引，索引的value即为那行对应的完整数据。

InnoDB普通索引查找流程：通过.ibd文件找到对应的索引，索引的value即为那行对应的主键的值，再根据主键值去主键索引树中找到对应的行数据。

提问：聚集索引和非聚集索引的区别？

聚集索引：表中那行数据的索引和数据都合并在一起了。

非聚集索引：表中那行数据的索引和数据是分开存储的。

提问：为什么InnoDB表必须有主键？

因为整个数据文件本身就是按照B+树组织的一个索引文件，所以必须要有主键（建InnoDB表时不指定主键，默认会从表字段中选一列作为唯一主键，如果不存在这种字段，则后台默认生成一个长整型主键字段，MyISAM可以没有）。

提问：为什么推荐使用整型的自增主键？

提高查询性能。如果是使用UUID作为主键，第一，UUID长度很长，会浪费存储空间，第二，UUID是字符串类型，比较大小要查找ASCII码表，查找速度没有整型int查找速度快，第三，UUID是随机生成无序的字符串，当数据插入时，有很大可能会导致节点位置移动，还可能造成很多其他节点位置移动，简单来说就是位置打乱了。如果使用整型的自增主键，新插入的数据都会连续的插入到磁盘的物理空间。

提问：为什么InnoDB普通索引结构叶子节点存储的是主键值？（一致性和节省存储空间）

如果普通索引的value也存数据，那么当往有主键索引和普通索引的表中插入数据时，索引结构中key对应的value要存储两份数据，增加维护成本。

单值索引：只有一个索引，如(id)，size=1

联合索引：多个索引合起来作为一个联合索引，如(id,name)，size>1（单值索引是联合索引size=1的特例）

提问：联合索引的底层数据结构长什么样？

（叶子节点key是联合索引值，value是除联合索引以外一行记录其他字段的完整数据）

先比较id，如果id相等，再比较name，如果name也相等，则再比较date。（索引最左前缀原理，后面索引优化随笔会讲解）

MySQL索引底层数据结构的更多相关文章

深入理解Mysql索引底层数据结构与算法
索引是帮助MySQL高效获取数据的排好序的数据结构索引数据结构对比二叉树左边子节点的数据小于父节点数据,右边子节点的数据大于父节点数据. 如果col2是索引,查找索引为89的行元素,那么只需要查 ...
深入理解MySQL索引底层数据结构
作者:IT王小二博客:https://itwxe.com MySQL 索引相关的数据结构有两种,一种是 B+tree,一种是 Hash,那么为什么在 99.99% 的情况下都使用的是 B+tree索 ...
Mysql索引底层数据结构与算法
索引是什么索引是帮助MySQL高效获取数据的排好序的数据结构. 索引存储在文件里补充知识: 磁盘存取原理: * 寻道时间(速度慢,费时) * 旋转时间(速度较快) 磁盘IO读取效率: * 单次IO ...
MySQL索引之数据结构及算法原理
MySQL索引之数据结构及算法原理 MySQL支持多个存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BTree索引,哈希索引,全文索引等等.本文只关注BTre ...
一文搞懂mysql索引底层逻辑，干货满满！
一.什么是索引在mysql中,索引是一种特殊的数据库结构,由数据表中的一列或多列组合而成,可以用来快速查询数据表中有某一特定值的记录.通过索引,查询数据时不用读完记录的所有信息,而只是查询索引列即可 ...
MySQL索引底层实现原理
优秀博文: MySQL索引背后的数据结构及算法原理 B树.B-树.B+树.B*树[转],mysql索引 MySQL 和 B 树的那些事索引的本质 MySQL官方对索引的定义为:索引(Index)是帮 ...
007 --MySQL索引底层实现原理
MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构.提取句子主干,就可以得到索引的本质:索引是数据结构. 我们知道,数据库查询是数据库的最主要功能之一.我们都希望查 ...
MySQL索引底层实现
一.定义索引定义:索引(Index)是帮助MySQL高效获取数据的数据结构.本质:索引是数据结构. 二.B-Tree m阶B-Tree满足以下条件: 每个节点至多可以拥有m棵子树. 根节点,只有至少 ...
关于Mysql索引的数据结构
索引的数据结构 1.为什么使用索引概念: 索引是存储索引用于快速找到数据记录的一种数据结构,就好比一本书的目录部分,通过目录中对应的文章的页码,便可以快速定位到需要的文章,Mysql 中也是一样的道 ...

随机推荐

idea命令行、撤销commit
原文地址:https://blog.csdn.net/chzphoenix/article/details/38090349 近期在使用git,最开始在idea界面操作,后来要求用命令行.刚开始还不是 ...
c++ 文件的简单操作
文件的读取操作在程序设计中,文件常用的操作不外乎--打开.读.写.流指针操作.关闭.我日常中使用的比较多,但从来没有细细总结今天就总结下具体的用法. 相关概念计算机上的文件其实是数据的集合,对文 ...
Excel.Application使用手册
Excel.Application组件使用方法,适合应用于使用EXCEL组件做WEB应用开发. 转自http://bbs.xtjc.com/thread-376095-1-1.html 定制模块行为( ...
es6 promise 简单总结
话不多说,直捣主题. promise用途:异步编程的一种解决方案. 优点:比传统的解决方案——回调函数和事件——更合理和更强大. 三种状态:pending(进行中).fulfilled(已成功)和re ...
Git提交代码和更新代码命令
微信公众号:非科班的科班关注可了解更多的java教程和其它资源视频.问题或建议,请公众号留言; 1.Git提交代码利用命令提交代码的步骤:1.1.拉取服务器代码,避免覆盖他人的代码 git pull ...
关于基本布局之——Flex布局
Flex布局 1.Flex为"Flexible Box"的简称,即为弹性布局,可作用于任何容器上.给div这类块状元素元素设置display:flex或者给span这类内联元素设置 ...
SUSE Linux Enterprise 11 离线安装 DLIB 人脸识别 python机器学习模块
python机器学习模块安装我的博客:http://www.cnblogs.com/wglIT/p/7525046.html 环境:SUSE Linux Enterprise 11 sp4 离线安 ...
JDK Proxy和CGLIB Proxy
动态代理在Java中有着广泛的应用,比如Spring AOP,Hibernate数据查询.测试框架的后端mock.RPC,Java注解对象获取等.静态代理的代理关系在编译时就确定了,而动态代理的代理关 ...
用goaccess实现可视化并实时监控access日志
goaccess access.log -o ../html/report.html --real-time-html time-format='%H:%M:%S' --date-format=‘%d ...
python环境安装及配置
一.下载python,可选择python2.x或python 3.0 下载地址:[官网],选择系统 ---选择对应版本注意自己电脑是32位(X86)还是64位(x86-64) 下载文件包,点击点击安 ...

MySQL索引底层数据结构

MySQL索引底层数据结构的更多相关文章

随机推荐

热门专题