Mysql 索引 n-gram分词引擎使用

概述：

　　类似于书籍的目录，找到一本书的特定内容，需要首先找到内容对应页码，定位对应页码

　　存储引擎使用类似方法进行数据查找，先找到索引中对应值，然后根据匹配的索引找到对应行

实现原理：

　　索引的实现通常使用B-Tree 及其变种B+树。（还有HASH）

优缺点：

　　优点：

通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性
可以大大加快数据的检索速度，这也是创建索引的最主要的原因
帮助服务器避免排序和临时表

　　缺点：

降低写、改速度
占用磁盘空间

使用场景：

对于非常小的表，全表扫描更快
中大型表索引非常有用

使用：

Mysql常见索引有：主键索引、唯一索引、普通索引、全文索引、组合索引

PRIMARY KEY（主键索引）

  ALTER TABLE `table_name` ADD PRIMARY KEY ( `col` )

UNIQUE(唯一索引)

  ALTER TABLE `table_name` ADD UNIQUE (`col`)

INDEX(普通索引)

ALTER TABLE `table_name` ADD INDEX index_name (`col`)

FULLTEXT(全文索引)

  ALTER TABLE `table_name` ADD FULLTEXT ( `col` )

组合索引 (复合索引)

 ALTER TABLE `table_name` ADD INDEX index_name (`a`, `b`, `c` )

遵循前缀原则
WHERE( `a` = 1,`c` = 1) 不会用到索引
WHERE（`a` = 1 , `b` =1）可以用到索引

删除索引

ALTER TABLE table_name DROP INDEX index_name

查看索引

mysql> show index from tblname;

mysql> show keys from tblname;

主键索引和唯一索引区别：

主键索引只能有一个
主键索引一定是唯一索引，唯一索引不一定是主键索引
主键索引不能为空

索引创建原作

最适合索引的列是 WHERE子句或者 ON 子句后的列
根据情况适当创建复合索引
尽可能选择数据小的列，节约磁盘空间

mysql 常用命令行：

查看表结构

SHOW CREATE TABLE tableName \G

修改存储引擎

ALTER TABLE my_table ENGINE = InnoDB;

注意事项：

1.索引不存储null值

2.不适合键值较少的列（重复数据较多的列）

3.前导模糊查询不能利用索引(like '%XX'或者like '%XX%')

4.索引失效的几种情况

　　1.如果条件中有or，即使其中有条件带索引也不会使用(这也是为什么尽量少用or的原因)要想使用or，又想让索引生效，只能将or条件中的每个列都加上索引

　　2.对于多列索引，不是使用的第一部分，则不会使用索引

　　3.like查询以%开头　　

　　4.如果列类型是字符串，那一定要在条件中将数据使用引号引用起来,否则不使用索引

　　5.如果mysql估计使用全表扫描要比使用索引快,则不使用索引

全文索引：

分词索引基本使用方法：

 SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聪')

分词，全文索引以词为基础的，MySQL默认的分词是所有非字母和数字的特殊符号都是分词符

也就是说

SELECT * FROM `vote_record` where MATCH(`user_id`) AGAINST('aewk');

无法检索到数据库中user_id字段为 aewK0F7rGWvxZbNiTqj7 的值

mysql5.7版本之前不支持中文检索

解决方法：

　　1 . 在表中新建一个拼音字段，程序将中文转换拼音后存入这个字段

　　2. mysql5.7.6之后自带有 n-gramparser ，我们可以用他轻松的实现分词功能

使用方法：

注意：

    1 . ngram只支持InooDB引擎

    2.  每次在修改完mysql.ini后需要 OPTIMIZE TABLE TABLE_NAME 对索引重构

1. 在mysql.ini中设置分词大小，默认是2

[mysqld]

ngram_token_size=2

分词的SIZE越大，索引的体积就越大，所以要根据自身情况来设置合适的大小。

2. 创建表

CREATE TABLE articles (

            id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,

            title VARCHAR(200),

            body TEXT,

            auth VARCHAR(30),

            FULLTEXT (title,body) WITH PARSER ngram   //这里声明使用分词引擎n-gram

        ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

如果是已经创建的表可以使用

ALTER TABLE table_name ADD FULLTEXT INDEX ft_name  (`name`, `company_code`, `office_address`) WITH PARSER ngram;

最后记得 OPTIMIZE TABLE table_name 重建索引(需要定期执行)

3. 显式指定全文检索表源（这是一个非常有用的调试工具。如果我们发现一个包含某个词的文档，没有如我们所期望的那样出现在查询结果中，那么这个词可能是因为某些原因不在全文索引里面。）

mysql> SET GLOBAL innodb_ft_aux_table="new_feature/articles";   //new_feature为数据库名称, articles为表名称

Query OK, 0 rows affected (0.00 sec)

通过系统表，就可以查看到底是怎么划分articles里的数据。

mysql> SELECT *FROM information_schema.INNODB_FT_INDEX_CACHE LIMIT 20,10;

我们可以通过查询INFORMATION_SCHEMA.INNODB_FT_INDEX_CACHE和INFORMATION_SCHEMA.INNODB_FT_TABLE_TABLE来查询哪些词在全文索引里面。

查询：

1.自然语言模式下检索：

得到符合条件的个数

mysql>SELECT COUNT(*) FROM articles

-> WHERE MATCH (title,body) AGAINST ('数据库' IN NATURALLANGUAGE MODE);

+----------+

| COUNT(*) |

+----------+

|       4  |

+----------+

1 row in set (0.05 sec)

得到匹配的比率

 mysql>SELECT id, MATCH (title,body) AGAINST ('数据库' IN NATURAL LANGUAGE MODE)

 AS score FROM articles;

+----+----------------------+

| id| score                |

+----+----------------------+

|  1 | 0.12403252720832825 |

|  2 | 0.12403252720832825 |

|  3 |                   0 |

|  4 | 0.12403252720832825 |

|  5 | 0.062016263604164124|

|  6 |                   0 |

+----+----------------------+

6rows in set (0.00 sec)

2.布尔模式下搜索，这个就相对于自然模式搜索来的复杂些：

匹配既有管理又有数据库的记录

mysql> SELECT * FROM articles WHERE MATCH (title,body)

        ->     AGAINST ('+数据库 +管理' IN BOOLEAN MODE);

+----+------------+--------------------------------------+

| id| title      | body                                  |

+----+------------+--------------------------------------+

|  1 | 数据库管理  | 在本教程中我将向你展示如何管理数据库       |

+----+------------+--------------------------------------+

1 rowin set (0.00 sec)

匹配有数据库，但是没有管理的记录

mysql> SELECT * FROM articles WHERE MATCH (title,body)

        ->     AGAINST ('+数据库 -管理' IN BOOLEAN MODE);

+----+------------------+----------------------------+

| id| title             | body                       |

+----+------------------+----------------------------+

|  2 | 数据库应用开发     | 学习开发数据库应用程序         |

|  4 | 数据库与事务处理   | 系统的学习数据库的事务概论      |

|  5 | NoSQL 精髓       | 学习了解各种非结构化数据库      |

+----+------------------+----------------------------+

3 rows in set (0.00 sec)

匹配MySQL，但是把数据库的相关性降低

mysql> SELECT * FROM articles WHERE MATCH (title,body)

        ->     AGAINST ('>数据库 +MySQL' INBOOLEAN MODE);

+----+---------------+-----------------+

| id| title          | body            |

+----+---------------+-----------------+

|  3 | MySQL完全手册  |学习MySQL的一切    |

+----+---------------+-----------------+

1 rowin set (0.00 sec)

代码参考：https://blog.csdn.net/zwrj1130/article/details/55506179

https://www.cnblogs.com/zhoujinyi/p/5643408.html

Mysql 索引 n-gram分词引擎使用的更多相关文章

MySQL索引底层实现
一.定义索引定义:索引(Index)是帮助MySQL高效获取数据的数据结构.本质:索引是数据结构. 二.B-Tree m阶B-Tree满足以下条件: 每个节点至多可以拥有m棵子树. 根节点,只有至少 ...
MySQL索引基础知识点
什么是索引索引类似于书本目录,是数据库存储引擎维护的用于快速查找到记录的一种数据结构,它是对查询性能优化的最有效手段. MySQL索引是在存储引擎层而不是服务器层实现的,不同存储引擎的索引工作方式也 ...
Database基础(二)：MySQL索引创建与删除、 MySQL存储引擎的配置
一.MySQL索引创建与删除目标: 本案例要求熟悉MySQL索引的类型及操作方法,主要练习以下任务: 普通索引.唯一索引.主键索引的创建/删除自增主键索引的创建/删除建立员工表yg.工资表gz, ...
MYSQL索引类型。MYSQLc储存引擎
MYSQL索引类型,MYSQLc储存引擎 MySQL索引创建与删除 MySQL存储引擎的 ...
MySQL索引及优化（1）存储引擎和底层数据结构
在昨天的面试中问到了MySQL索引怎么优化(查询很慢怎么办),回答的很不理想,所以今天来总结几篇关于MySQL索引的知识. 1.什么是索引? 首先我们一定要明确什么是索引?我自己的总结就是索引是一种数 ...
MySQL索引、事务、存储引擎
一.MySQL 索引 1.索引的概念 ●索引是一个排序的列表,在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址(类似于C语言的链表通过指针指向数据记录的内存地址).●使用索引后可以不用扫描 ...
【MySQL】MySQL（四）存储引擎、索引、锁、集群
MySQL存储引擎 MySQL体系结构体系结构的概念任何一套系统当中,每个部件都能起到一定的作用! MySQL的体系结构体系结构详解客户端连接支持接口:支持的客户端连接,例如C.Java.P ...
MySQL 索引、事务与存储引擎
MySQL 索引.事务与存储引擎 1.索引 2.事务 3.存储引擎 1.索引: 索引的概念 : 索引是一个排序的列表,在这个列表中存储着索引的值和包含这个值的数据所在行的物理地址 ...
27.MySQL 索引、事务与存储引擎
MySQL 索引.事务与存储引擎目录 MySQL 索引.事务与存储引擎 MySQL 索引索引的概念索引的作用及副作用索引的作用索引的副作用创建索引的原则依据索引的分类和创建普通索引唯 ...

随机推荐

[蓝桥杯]ALGO-101.算法训练_图形显示
问题描述编写一个程序,首先输入一个整数,例如5,然后在屏幕上显示如下的图形(5表示行数): * * * * * * * * * * * * * * * 题目描述代码如下: #include < ...
使用R语言-为矩阵（表格）的行列命名
转自:http://www.dataguru.cn/article-2217-1.html R语言中经常进行矩阵(表格)数据的处理,在纷繁复杂的数据中,为其行列定义一个名字变得尤为重要.在处理巨量数据 ...
Jenkins小试
之前有提到和同事搭建了个Git+Gerrit+Jenkins环境,可惜都在一台机器上,中间IT重装系统后就杯具了,没有备份,只好重来. 6月份项目发布了首个Open API,那时候建了个api uni ...
bzoj5011: [Jx2017]颜色
Description 可怜有一个长度为n的正整数序列Ai,其中相同的正整数代表着相同的颜色. 现在可怜觉得这个序列太长了,于是她决定选择一些颜色把这些颜色的所有位置都删去. 删除颜色i可以定义为把所 ...
C#应用jstree实现无限级节点的方法
下载jstree.js下载地址: http://jstree.com/ 当前下载版本: jsTree 3.3.1 第一步:下载完成后引用js+css <link href="~/plu ...
C#批量更新mongodb符合条件的数据
默认情况下只会更新匹配的第一条 jingjiaanalyurl.Update(Query.EQ("auid", jingjiaitem.id), Update.Set(" ...
API网关之Kong网关简介
1. Kong简介那么,Kong是一个什么东东呢?它是一个开源的API网关,或者你可以认为它是一个针对API的一个管理工具.你可以在那些上游service之上,额外去实现一些功能.Kong是开源的, ...
org.apache.ibatis.binding.BindingException: Parameter 'idList' not found解决办法
https://blog.csdn.net/qq_28379809/article/details/83342196 问题描述使用Mybatis查询数据库报错: org.apache.ibatis. ...
windows修改远程桌面端口3389
regedit 按照路径打开,HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Terminal Server\WinStations\RDP-T ...
MySQL 二进制文件恢复数据基础版本
先来一段自行体会 #---------------------------------------------------------------------------------- #模拟通过b ...

Mysql 索引 n-gram分词引擎使用

Mysql 索引 n-gram分词引擎使用的更多相关文章

随机推荐

热门专题