索引经常使用的数据结构为B+树。结构例如以下

如上图,是一颗b+树,关于b+树的定义能够參见B+树,这里仅仅说一些重点。浅蓝色的块我们称之为一个磁盘块,能够看到每一个磁盘块包括几个数据项(深蓝色所看到的)和指针(黄色所看到的),如磁盘块1包括数据项17和35。包括指针P1、P2、P3。P1表示小于17的磁盘块,P2表示在17和35之间的磁盘块,P3表示大于35的磁盘块。真实的数据存在于叶子节点即3、5、9、10、13、15、28、29、36、60、75、79、90、99。

非叶子节点仅仅不存储真实的数据,仅仅存储指引搜索方向的数据项,如17、35并不真实存在于数据表中。

b+树的查找过程

如图所看到的,假设要查找数据项29,那么首先会把磁盘块1由磁盘载入到内存,此时发生一次IO。在内存中用二分查找确定29在17和35之间,锁定磁盘块1的P2指针,内存时间由于很短(相比磁盘的IO)能够忽略不计,通过磁盘块1的P2指针的磁盘地址把磁盘块3由磁盘载入到内存。发生第二次IO,29在26和30之间,锁定磁盘块3的P2指针。通过指针载入磁盘块8到内存。发生第三次IO,同一时候内存中做二分查找找到29,结束查询,总计三次IO。

真实的情况是,3层的b+树能够表示上百万的数据。假设上百万的数据查找仅仅须要三次IO,性能提高将是巨大的,假设没有索引,每一个数据项都要发生一次IO,那么总共须要百万次的IO。显然成本很很高。

b+树性质

1.通过上面的分析,我们知道IO次数取决于b+数的高度h。假设当前数据表的数据为N,每一个磁盘块的数据项的数量是m,则有h=㏒(m+1)N,当数据量N一定的情况下,m越大,h越小。而m = 磁盘块的大小 / 数据项的大小。磁盘块的大小也就是一个数据页的大小,是固定的。假设数据项占的空间越小,数据项的数量越多,树的高度越低。

这就是为什么每一个数据项,即索引字段要尽量的小,比方int占4字节,要比bigint8字节少一半。这也是为什么b+树要求把真实的数据放到叶子节点而不是内层节点,一旦放到内层节点,磁盘块的数据项会大幅度下降。导致树增高。当数据项等于1时将会退化成线性表。

2.当b+树的数据项是复合的数据结构,比方(name,age,sex)的时候,b+数是依照从左到右的顺序来建立搜索树的。比方当(张三,20,F)这种数据来检索的时候。b+树会优先比較name来确定下一步的所搜方向。假设name同样再依次比較age和sex。最后得到检索的数据。但当(20,F)这种没有name的数据来的时候,b+树就不知道下一步该查哪个节点,由于建立搜索树的时候name就是第一个比較因子,必须要先依据name来搜索才干知道下一步去哪里查询。

比方当(张三,F)这种数据来检索时。b+树能够用name来指定搜索方向,但下一个字段age的缺失,所以仅仅能把名字等于张三的数据都找到,然后再匹配性别是F的数据了。 这个是很重要的性质,即索引的最左匹配特性。

建索引的几大原则

1.最左前缀匹配原则,很重要的原则。mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配,比方a = 1 and b = 2 and c > 3 and d = 4 假设建立(a,b,c,d)顺序的索引,d是用不到索引的。假设建立(a,b,d,c)的索引则都能够用到,a,b,d的顺序能够随意调整。

2.=和in能够乱序,比方a = 1 and b = 2 and c = 3 建立(a,b,c)索引能够随意顺序。mysql的查询优化器会帮你优化成索引能够识别的形式

3.尽量选择区分度高的列作为索引,区分度的公式是count(distinct col)/count(*),表示字段不反复的比例,比例越大我们扫描的记录数越少,唯一键的区分度是1,而一些状态、性别字段可能在大数据面前区分度就是0,那可能有人会问。这个比例有什么经验值吗?使用场景不同,这个值也很难确定,一般须要join的字段我们都要求是0.1以上,即平均1条扫描10条记录

4.索引列不能參与计算,保持列“干净”。比方from_unixtime(create_time) = ’2014-05-29’就不能使用到索引,原因很easy,b+树中存的都是数据表中的字段值,但进行检索时,须要把全部元素都应用函数才干比較,显然成本太大。所以语句应该写成create_time = unix_timestamp(’2014-05-29’);

5.尽量的扩展索引,不要新建索引。比方表中已经有a的索引,如今要加(a,b)的索引。那么仅仅须要改动原来的索引就可以

mysql优化之索引建立的规则的更多相关文章

  1. mysql 优化之索引的使用

    mysql 优化之索引的使用 1:MySQL 索引简介: MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 打个比方,如果合理的设计且使用索引的MySQL ...

  2. 【Mysql优化】索引优化策略

    1:索引类型 1.1 B-tree索引 注: 名叫btree索引,大的方面看,都用的平衡树,但具体的实现上, 各引擎稍有不同, 比如,严格的说,NDB引擎,使用的是T-tree   Myisam,in ...

  3. mysql优化之索引篇

    对mysql优化是一个综合性的技术,主要包括 a: 表的设计合理化(符合3NF) b: 添加适当索引(index) [四种: 普通索引.主键索引.唯一索引unique.全文索引] c: 分表技术(水平 ...

  4. mysql优化之索引优化

    Posted by Money Talks on 2012/02/23 | 第一篇 序章第二篇 连接优化第三篇 索引优化第四篇 查询优化第五篇 到实战中去 索引优化 索引优化涉及到几个方面,包括了索引 ...

  5. Mysql优化之索引和字段

    Mysql优化是一个老生常谈的问题, 优化的方向也优化很多:从架构层;从设计层;从存储层;从SQL语句层; 今天讲解一下从索引和字段: 字段优化: ①  尽量使用TINYINT.SMALLINT.ME ...

  6. MySQL优化之索引解析

    索引的本质 MySQL索引或者说其他关系型数据库的索引的本质就只有一句话,以空间换时间. 索引的作用 索引关系型数据库为了加速对表中行数据检索的(磁盘存储的)数据结构 索引的分类 数据结构上面的分类 ...

  7. 第九课——MySQL优化之索引和执行计划

    一.创建索引需要关注什么? 1.关注基数列唯一键的数量: 比如性别,该列只有男女之分,所以性别列基数是2: 2.关注选择性列唯一键与行数的比值,这个比值范围在0~1之前,值越小越好: 其实,选择性列唯 ...

  8. MySQL优化之索引原理(二)

    一,前言 ​ 上一篇内容说到了MySQL存储引擎的相关内容,及数据类型的选择优化.下面再来说说索引的内容,包括对B-Tree和B+Tree两者的区别. 1.1,什么是索引 ​ 索引是存储引擎用于快速找 ...

  9. MySQL优化四 索引优化

    索引为什么能提高数据访问性能? 很多人只知道索引能够提高数据库的性能,但并不是特别了解其原理,其实我们可以用一个生活中的示例来理解. 我们让一位不太懂计算机的朋友去图书馆确认一本叫做<MySQL ...

随机推荐

  1. centos中代理的设置

    最近在校园网中使用一个centos的主机,链接网络是需要代理的,如果是windows主机在Internet选项里设置一下就可以,可是在linux这个任何配置都要更改配置文件的系统里我还真是纠结了好大一 ...

  2. LibreOJ2044 - 「CQOI2016」手机号码

    Portal Description 给出两个十一位数\(L,R\),求\([L,R]\)内所有满足以下两个条件的数的个数. 出现至少\(3\)个相邻的相同数字: 不能同时出现\(4\)和\(8\). ...

  3. AIX 常用命令 第一步(uname,lspv)

    如何知道自己在运行单处理器还是多处理器内核? /unix 是指向已启动内核的符号链接.要了解正在运行什么内核模式,可输入 ls -l /unix 并查看 /unix 链接到什么文件.下面是 ls -l ...

  4. BeanFactory到WebApplicationContext的结构 以及bean和spring容器的关系

    BeanFactory: Ioc 容器 ApplicationContext: Spring容器 WebApplicationContext需要ServletContext实例,也就是说它必须在拥有W ...

  5. Repeated Substrings(UVAlive 6869)

    题意:求出现过两次以上的不同子串有多少种. /* 用后缀数组求出height[]数组,然后扫一遍, 发现height[i]-height[i-1]>=0,就ans+=height[i]-heig ...

  6. 大规模SOA系统中的分布事务思考

    首先是不建议采用XA两阶段提交方式去处理分布式事务,要知道要能够支持XA分布式事务,必须是要实现XA规范才可以,而Service本身是无状态的,如果这样去做了等于是把Service内部的东西暴露了出去 ...

  7. 【CF711D】Directed Roads(环,强连通分量)

    题意: 给一张N个点N条有向边的图,边可以逆向.问任意逆向若干条边使得这张图无环的方案数(mod 1e9+7). n<=200000 思路:三个样例给的好 找规律方便很多 易得有N点的环有(2^ ...

  8. 3 月 15 个有意思的 JavaScript 和 CSS 库

    Tutorialzine 旨在让你了解最新最酷的 Web 发展趋势.这就是我们每个月为何都会发布一些我们偶然发现并认为值得你关注的优秀资源的原因. BasicScroll https://github ...

  9. 两个 DataTable 读取重复数据

    今天正好用到Excel 导入转换成table , 文件中数据要和数据库里数据进行比对,有重复的抛出重复数据. 和大家分享下,欢迎高手留言指点.有问题可以留言关注! /// <summary> ...

  10. [ASP.NET Core] Tips

    让Cache支持SetObject using Microsoft.AspNetCore.Http; using Newtonsoft.Json; public static class Sessio ...