索引

1、数据库索引

　　数据库索引是一种数据结构，可以以额外的写入和存储空间为代价来提高数据库表上的数据检索操作的速度，以维护索引数据结构。索引用于快速定位数据，而无需在每次访问数据库表时搜索数据库表中的每一行。

　　简单来说，数据库索引的本质是数据结构,这种数据结构能够帮助我们快速的获取数据库中的数据。

2、索引种类

普通索引：仅加速查询
唯一索引：加速查询 + 列值唯一（可以有null）
主键索引：加速查询 + 列值唯一 +　表中只有一个（不可以有null）
组合索引：多列值组成一个索引，
专门用于组合搜索，其效率大于索引合并
全文索引：对文本的内容进行分词，进行搜索

索引合并，使用多个单列索引组合搜索
覆盖索引，select的数据列只用从索引中就能够取得，不必读取数据行，换句话说查询列要被所建的索引覆盖

a、普通索引

　　普通索引可以包括不止一列,一般把多个列组成的普通索引叫组合索引,也有把普通索引看成是只有一列的组合索引的。此外,在索引字符串时,可以只把前几位作为索引来提升效率。

create table in1(

    nid int not null auto_increment primary key,

    name varchar(32) not null,

    email varchar(64) not null,

    extra text,

    index ix_name (name)

)

--ix_name 索引名

创表时 + 索引

create index index_name on table_name(column_name)

添加索引

drop index_name on table_name;

删除索引

show index from table_name;

查看索引

ps：对于创建索引时如果是BLOB 和 TEXT 类型，必须指定length。

create index ix_extra on in1(extra(32));

b、唯一索引

　　唯一索引列中的值必须是唯一的。不过有一个例外,可以有且可以有多个Null。

　　唯一索引有两个功能：加速查询和唯一约束（可含null）

create table in1(

    nid int not null auto_increment primary key,

    name varchar(32) not null,

    email varchar(64) not null,

    extra text,

    unique ix_name (name)

)

创表时 + 唯一索引

create unique index 索引名 on 表名(列名)

添加索引

drop unique index 索引名 on 表名

删除索引

c、主键索引

　　主键索引必须唯一,不同的是不能有Null。主键索引也可以是组合索引,只要组合的每条结果是唯一的

　　主键索引有两个功能：加速查询和唯一约束（不可含null）

create table in1(

    nid int not null auto_increment primary key,

    name varchar(32) not null,

    email varchar(64) not null,

    extra text,

    index ix_name (name)

)

OR

create table in1(

    nid int not null auto_increment,

    name varchar(32) not null,

    email varchar(64) not null,

    extra text,

    primary key(ni1),

    index ix_name (name)

)

创表时 + 主键索引

alter table 表名 add primary key(列名);

创建主键

alter table 表名 drop primary key;

alter table 表名  modify  列名 int, drop primary key;

删除主键

d、组合索引

　　组合索引是将n个列组合成一个索引

　　其应用场景为：频繁的同时使用n列来进行查询，如：where n1 = 'sb' and n2 = 666。

create table in3(

    nid int not null auto_increment primary key,

    name varchar(32) not null,

    email varchar(64) not null,

    extra text

)

创建表

create index ix_name_email on in3(name,email);

添加组合索引

遵循最左前缀匹配原则：　

如上创建组合索引之后，查询：

name and email -- 使用索引
name -- 使用索引
email -- 不使用索引

注意：对于同时搜索n个条件时，组合索引的性能好于多个单一索引合并。

3、相关命令

-- 查看表结构

    desc 表名

-- 查看生成表的SQL

    show create table 表名

-- 查看索引

    show index from  表名

-- 查看执行时间

    set profiling = 1;

    SQL...

    show profiles;

4、正确使用索引

　　数据库表中添加索引后确实会让查询速度起飞，但前提必须是正确的使用索引来查询，如果以错误的方式使用，则即使建立索引也会不奏效。

即使建立索引，索引也不会生效：

--like '%xx'

    select * from tb1 where name like '%cn';

--使用函数

    select * from tb1 where reverse(name) = 'xiaoming';

- or

    select * from tb1 where nid = 1 or email = '8888888@qq.com';

    特别的：当or条件中有未建立索引的列才失效，以下会走索引

            select * from tb1 where nid = 1 or name = 'xiaoming';

            select * from tb1 where nid = 1 or email = '8888888@qq.com' and name = 'sb'

--类型不一致

    如果列是字符串类型，传入条件是必须用引号引起来，不然...

    select * from tb1 where name = 999;

- !=

    select * from tb1 where name != 'sb'

    特别的：如果是主键，则还是会走索引

        select * from tb1 where nid != 123

- >

    select * from tb1 where name > 'sb'

    特别的：如果是主键或索引是整数类型，则还是会走索引

        select * from tb1 where nid > 123

        select * from tb1 where num > 123

-- order by

    select email from tb1 order by name desc;

    当根据索引排序时候，选择的映射如果不是索引，则不走索引

    特别的：如果对主键排序，则还是走索引：

        select * from tb1 order by nid desc;

--组合索引最左前缀

    如果组合索引为：(name,email)

    name and email       -- 使用索引

    name                 -- 使用索引

    email                -- 不使用索引

5、其他注意事项

--避免使用select *

--count(1)或count(列) 代替 count(*)

-- 创建表时尽量时 char 代替 varchar

--表的字段顺序固定长度的字段优先

--组合索引代替多个单列索引（经常使用多个条件查询时）

-- 尽量使用短索引

如果你的一个字段是Char(32)或者int(32),在创建索引的时候指定前缀长度 比如前10个字符 (前提是多数值是唯一的..)那么短索引可以提高查询速度,并且可以减少磁盘的空间,也可以减少I/0操作.

-- 使用连接（JOIN）来代替子查询(Sub-Queries)

-- 连表时注意条件类型需一致

-- 索引散列值（重复少）不适合建索引，例：性别不适合

--索引不会包含NULL列,如果列中包含NULL值都将不会被包含在索引中,复合索引中如果有一列含有NULL值那么这个组合索引都将失效,一般需要给默认值0或者 ' '字符串


--不要在列上进行运算,这样会使得mysql索引失效,也会进行全表扫描

limit分页

　　在查询数据库的时，有时候由于要查询很大的数据，所以这时候需要分批去取数据库表中的全部数据来进行处理，最简单的方法就是使用分页查询语句：MySQL的LIMIT语句是满足这个要求的。

　　LIMIT 子句可以被用于强制 SELECT 语句返回指定的记录数。LIMIT 接受一个或两个数字参数。参数必须是一个整数常量。如果给定两个参数，第一个参数指定第一个返回记录行的偏移量，第二个参数指定返回记录行的最大数目

一般来说我们通过这样来查询指定的数据

SELECT * FROM tb1 LIMIT 1000000, 10;

但是现在的数据达到百万级的，这样写会非常的慢，

limit查询优化

方法一：

通过子查询的方式来提高分页效率

select * from tbl where nid > (select nid from tb1 limit 1000000,1) limit 10

没优化前是直接全表扫描去取数据，现在是只扫描索引表再去取数据。但是优化效果不大，只是快了一些罢了。

方法二：

显示为“上一页 5 6 7 8 下一页”这种类型

--上一页

　　select * from tb1 where nid > 当前页最大值 order by nid asc limit 10

-下一页

　　select * from tb1 where nid < 当前页最小值 order by nid desc limit 10

页码跳转

-- 向前跳转：

    select

        *

    from

        tb1

    where

        nid < (select nid from (select nid from tb1 where nid > 当前页最大值 order by nid asc limit 每页数据 *【当前页-页码】) as A order by A.nid asc limit 1)

    order by

        nid desc

    limit 10;

--向后跳转

select

        *

    from

        tb1

    where

        nid < (select nid from (select nid from tb1 where nid < 当前页最小值 order by nid desc limit 每页数据 *【页码-当前页】) as A order by A.nid asc limit 1)

    order by

        nid desc

    limit 10;

　　这种的优化效果就显著很多了。

执行计划

explain + 查询SQL - 用于显示SQL执行信息参数，根据参考信息可以进行SQL优化

mysql> explain select * from tb2;

+----+-------------+-------+------+---------------+------+---------+------+------+-------+

| id | select_type | table | type | possible_keys | key  | key_len | ref  | rows | Extra |

+----+-------------+-------+------+---------------+------+---------+------+------+-------+

|  1 | SIMPLE      | tb2   | ALL  | NULL          | NULL | NULL    | NULL |    2 | NULL  |

+----+-------------+-------+------+---------------+------+---------+------+------+-------+

1 row in set (0.00 sec)

id

        查询顺序标识

            如：mysql> explain select * from (select nid,name from tb1 where nid < 10) as B;

            +----+-------------+------------+-------+---------------+---------+---------+------+------+-------------+

            | id | select_type | table      | type  | possible_keys | key     | key_len | ref  | rows | Extra       |

            +----+-------------+------------+-------+---------------+---------+---------+------+------+-------------+

            |  1 | PRIMARY     | <derived2> | ALL   | NULL          | NULL    | NULL    | NULL |    9 | NULL        |

            |  2 | DERIVED     | tb1        | range | PRIMARY       | PRIMARY | 8       | NULL |    9 | Using where |

            +----+-------------+------------+-------+---------------+---------+---------+------+------+-------------+

        特别的：如果使用union连接气值可能为null

    select_type

        查询类型

            SIMPLE          简单查询

            PRIMARY         最外层查询

            SUBQUERY        映射为子查询

            DERIVED         子查询

            UNION           联合

            UNION RESULT    使用联合的结果

            ...

    table

        正在访问的表名

    type

        查询时的访问方式，性能：all < index < range < index_merge < ref_or_null < ref < eq_ref < system/const

            ALL             全表扫描，对于数据表从头到尾找一遍

                            select * from tb1;

                            特别的：如果有limit限制，则找到之后就不在继续向下扫描

                                   select * from tb1 where email = 'seven@live.com'

                                   select * from tb1 where email = 'seven@live.com' limit 1;

                                   虽然上述两个语句都会进行全表扫描，第二句使用了limit，则找到一个后就不再继续扫描。

            INDEX           全索引扫描，对索引从头到尾找一遍

                            select nid from tb1;

            RANGE          对索引列进行范围查找

                            select *  from tb1 where name < 'alex';

                            PS:

                                between and

                                in

                                >   >=  <   <=  操作

                                注意：!= 和 > 符号

            INDEX_MERGE     合并索引，使用多个单列索引搜索

                            select *  from tb1 where name = 'alex' or nid in (11,22,33);

            REF             根据索引查找一个或多个值

                            select *  from tb1 where name = 'seven';

            EQ_REF          连接时使用primary key 或 unique类型

                            select tb2.nid,tb1.name from tb2 left join tb1 on tb2.nid = tb1.nid;

            CONST           常量

                            表最多有一个匹配行,因为仅有一行,在这行的列值可被优化器剩余部分认为是常数,const表很快,因为它们只读取一次。

                            select nid from tb1 where nid = 2 ;

            SYSTEM          系统

                            表仅有一行(=系统表)。这是const联接类型的一个特例。

                            select * from (select nid from tb1 where nid = 1) as A;

    possible_keys

        可能使用的索引

    key

        真实使用的

    key_len

        MySQL中使用索引字节长度

    rows

        mysql估计为了找到所需的行而要读取的行数 ------ 只是预估值

    extra

        该列包含MySQL解决查询的详细信息

        “Using index”

            此值表示mysql将使用覆盖索引，以避免访问表。不要把覆盖索引和index访问类型弄混了。

        “Using where”

            这意味着mysql服务器将在存储引擎检索行后再进行过滤，许多where条件里涉及索引中的列，当（并且如果）它读取索引时，就能被存储引擎检验，因此不是所有带where子句的查询都会显示“Using where”。有时“Using where”的出现就是一个暗示：查询可受益于不同的索引。

        “Using temporary”

            这意味着mysql在对查询结果排序时会使用一个临时表。

        “Using filesort”

            这意味着mysql会对结果使用一个外部索引排序，而不是按索引次序从表里读取行。mysql有两种文件排序算法，这两种排序方式都可以在内存或者磁盘上完成，explain不会告诉你mysql将使用哪一种文件排序，也不会告诉你排序会在内存里还是磁盘上完成。

        “Range checked for each record(index map: N)”

            这个意味着没有好用的索引，新的索引将在联接的每一行上重新估算，N是显示在possible_keys列中索引的位图，并且是冗余的。

详细

慢日志查询

a、配置MySQL自动记录慢日志

　　log_output=’FILE’ 表示将日志存入文件 log_output：日志存储方式，默认值是’FILE’

　　slow_query_log = OFF 是否开启慢日志记录
　　long_query_time = 2 时间限制，超过此时间，则记录
　　slow_query_log_file = /usr/slow.log 日志文件
　　log_queries_not_using_indexes = OFF 为使用索引的搜索是否记录

注：查看当前配置信息：
　　 show variables like '%query%'
修改当前配置：
　　　　set global 变量名 = 值

b、查看MySQL慢日志

mysqldumpslow -s at -a /usr/local/var/mysql/MacBook-Pro-3-slow.log

"""

--verbose    版本

--debug      调试

--help       帮助

-v           版本

-d           调试模式

-s ORDER     排序方式

             what to sort by (al, at, ar, c, l, r, t), 'at' is default

              al: average lock time

              ar: average rows sent

              at: average query time

               c: count

               l: lock time

               r: rows sent

               t: query time

-r           反转顺序，默认文件倒序拍。reverse the sort order (largest last instead of first)

-t NUM       显示前N条just show the top n queries

-a           不要将SQL中数字转换成N，字符串转换成S。don't abstract all numbers to N and strings to 'S'

-n NUM       abstract numbers with at least n digits within names

-g PATTERN   正则匹配；grep: only consider stmts that include this string

-h HOSTNAME  mysql机器名或者IP；hostname of db server for *-slow.log filename (can be wildcard),

             default is '*', i.e. match all

-i NAME      name of server instance (if using mysql.server startup script)

-l           总时间中不减去锁定时间；don't subtract lock time from total time

"""

mysql进阶（二）之细谈索引、分页与慢日志的更多相关文章

mysql进阶(二十七)数据库索引原理
mysql进阶(二十七)数据库索引原理前言本文主要是阐述MySQL索引机制,主要是说明存储引擎Innodb. 第一部分主要从数据结构及算法理论层面讨论MySQL数据库索引的数理基础. ...
mysql进阶(二十六)MySQL 索引类型（初学者必看）
mysql进阶(二十六)MySQL 索引类型(初学者必看) 索引是快速搜索的关键.MySQL 索引的建立对于 MySQL 的高效运行是很重要的.下面介绍几种常见的 MySQL 索引类型. 在数 ...
mysql进阶(二十八)MySQL GRANT REVOKE用法
mysql进阶(二十八)MySQL GRANT REVOKE用法 MySQL的权限系统围绕着两个概念: 认证->确定用户是否允许连接数据库服务器: 授权->确定用户是否拥有足够的权限执 ...
mysql进阶(二十九)常用函数
mysql进阶(二十九)常用函数一.数学函数 ABS(x) 返回x的绝对值 BIN(x) 返回x的二进制(OCT返回八进制,HEX返回十六进制) CEILING(x) 返回大于x的最小整数值 EXP ...
（3）MySQL进阶篇SQL优化（索引）
1.索引问题索引是数据库优化中最常用也是最重要的手段之一,通过索引通常可以帮助用户解决大多数的SQL性能问题.本章节将对MySQL中的索引的分类.存储.使用方法做详细的介绍. 2.索引的存储分类 ...
mysql进阶(二)索引简易教程
Mysql索引简易教程基本概念索引是指把你设置为索引的字段A的内容储存在一个独立区间S里,里面只有这个字段的内容.在找查这个与这个字段A的内容时会直接从这个独立区间里查找,而不是去到数据表里查找. ...
mysql进阶二
数据库存储数据的特点: 1.数据存放到表中,然后表再放到库中 2.一个库中可以有多张表,每张表具有唯一的表名来标识自己 3.表中有一个或多个列,列又称为“字段” 数据库常见的管理系统 mysql.or ...
mysql进阶(二十五)解决数据库NO CONNECTION问题
解决数据库NO CONNECTION问题前言数据库版本类型:Mysql5.5 在应用程序连接数据库时,提示数据库连接失败.打开数据库查看,显示如下. 究其原因,是因为mysql服务出现了问题,重启 ...
mysql进阶(二十二)MySQL错误之Incorrect string value: '\xE7\x81\xAB\xE7\x8B\x90...中文字符输入错误
MySQL错误之Incorrect string value: '\xE7\x81\xAB\xE7\x8B\x90...' for column 'tout' at row 1中文字符输入错误在实验 ...

随机推荐

linux学习笔记24---命令grep
Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来.grep全称是global search regular expression(RE) and ...
偶遇 sqlserver 参数嗅探
需求: 费用统计环境: 查询设计多张大表解决方案: 优化查询语句,封装成存储过程,建立索引,最终查询速度很不错.部署上线,告一段落... 一段时间后投诉来了... 客户投诉说查询没内容,我看了日志 ...
Linux----文件I/O
1.文件描写叙述符:每次我们打开一个文件,就会得到一个相应于该文件的较小的整数,这个整数就是这个文件的文件描写叙述符. 在shell操作中,0,1,2这三个文件描写叙述附总是打开的.一般是指向shel ...
大数据(7) - zookeeper的安装与使用
简介 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件.它是一个为分布式应用提供一致性服务的软件,提 ...
JXTA 2: 具有高性能、海量伸缩性的 P2P 网络
这是来自developerWorks的一篇文章,地址是 https://www.ibm.com/developerworks/cn/java/j-jxta2/ ———————————————————— ...
长尾分布，重尾分布(Heavy-tailed Distribution)
Zipf分布: Zipf分布是一种符合长尾的分布: 就是指尾巴很长的分布.那么尾巴很长很厚的分布有什么特殊的呢?有两方面:一方面,这种分布会使得你的采样不准,估值不准,因为尾部占了很大部分.另一方面, ...
Grodno 2015 (Urozero May 2015 Day 5) D Triangles
给出$P(<=10^9)$, 求有多少个有序三元组$(a, b, c),\ gcd(a, b, c) = 1,\ a + b + c <= P$且以它们构成的三角形中存在某个角是另外一个角 ...
2017 ACM区域赛(西安) 参赛流水账
day 0: 周五, 鸽了概统课,早上和紫金港的几位小伙伴一起打车去萧山机场,从咸阳机场到西北工业大学坐了五十多个站的公交车,感觉身体被掏空.晚上在宾馆本来打算补之前训练的一个题,想想还是先花个十来分 ...
poj 3680(最小费用最大流)
题目链接:http://poj.org/problem?id=3680 思路:因为N<=200,而区间范围为[1,100000],因此需要离散化,去重,然后就是建图了相连两点连边,容量为k,费用 ...
wpf的MVVM框架
http://www.cnblogs.com/KnightsWarrior/archive/2010/11/01/1866641.html 框架名字的介绍在文章的后面

mysql进阶（二）之细谈索引、分页与慢日志

索引