倒排索引的初衷

倒排索引，它也是索引。索引，初衷都是为了快速检索到你要的数据。

我相信你一定知道mysql的索引，如果对某一个字段加了索引，一般来说查询该字段速度是可以有显著的提升。

每种数据库都有自己要解决的问题（或者说擅长的领域），对应的就有自己的数据结构，而不同的使用场景和数据结构，需要用不同的索引，才能起到最大化加快查询的目的。

对 Mysql 来说，是 B+ 树，对 Elasticsearch/Lucene 来说，是倒排索引。

倒排索引是什么

刚刚胖滚猪说到图书的例子，目录和索引页，其实就很形象的可以比喻为正排索引和倒排索引。为了进一步加深理解，再看看熟悉的搜索引擎。没有搜索引擎时，我们只能直接输入一个网址，然后获取网站内容，这时我们的行为是document -> words。此谓「正向索引」。后来，我们希望能够输入一个单词，找到含有这个单词，或者和这个单词有关系的文章，即word -> documents。于是我们把这种索引，叫「反向索引」，或者「倒排索引」。

好了，我们来总结一下：

倒排索引的实现

假如一篇文章当中，有这么一段话"胖滚猪编程让你收获快乐"，我要通过"胖滚猪"这个词来搜索到这篇文章，那么应该如何实现呢。

我们是很容易想到，可以将这篇文章的词都拆开，拆分为"胖滚猪"、"编程"、"收获"、"快乐"。注意我们把没用的词，比如"让"去掉了。这个拆分短语的过程涉及到ES的分词，另外中文分词还是比较复杂的，不像英文分词一般用空格分隔就可以。等会我们再来说分词吧，现在你只要知道，我们是会按一定规则把文章单词拆分的。

那么拆开了，怎么去找呢？自然会维护一个单词和文档的对应关系，如图：

倒排索引的核心组成

1、单词词典：记录所有文档的单词，一般都比较大。还会记录单词到倒排列表的关联信息。

2、倒排列表：记录了单词对应的文档集合，由倒排索引项组成。倒排索引项包含如下信息：

文档ID，用于获取原始信息
单词频率TF，记录该单词在该文档中的出现次数，用于后续相关性算分
位置Position，记录单词在文档中分词的位置，用于语句搜索(phrase query)
偏移Offset，记录单词在文档的开始和结束位置，实现高亮显示

ES的倒排索引

下图是 Elasticsearch 中数据索引过程的流程。ES由 Analyzer 组件对文档执行一些操作并将具体子句拆分为 token/term，简单说就是分词，然后将这些术语作为倒排索引存储在磁盘中。

ES的JSON文档中的每一个字段，都有自己的倒排索引，当然你可以指定某些字段不做索引，优点是这样可以节省磁盘空间。但是不做索引的话字段无法被搜索到。

注意两个关键词：分词和倒排索引。倒排索引我相信你已经懂了！分词我们马上就来聊聊！

ES的分词

还是回到我们开头的那个查询例子，毕竟胖滚猪心心念念为什么会搜出两个文档！首先我们用_analyze来分析一下ES会如何对它进行分词及倒排索引：

现在你是不是一目了然了呢！先不管_analyze是何方神圣，反正你看到结果了，ES将它分成了一个个字，这是ES中默认的中文分词。掌握分词要先懂两个名词：analysis与analyzer

** analysis：**

文本分析，是将全文本转换为一系列单词的过程，也叫分词。analysis是通过analyzer(分词器)来实现的，可以使用Elasticearch内置的分词器，也可以自己去定制一些分词器。

** analyzer(分词器)： **

由三部分组成：

Character Filter：将文本中html标签剔除掉。
Tokenizer：按照规则进行分词，在英文中按照空格分词
Token Filter：将切分的单词进行加工，小写，删除 stopwords(停顿词，a、an、the、is等),增加同义词

注意：除了在数据写入时将词条进行转换，查询的时候也需要使用相同的分析器对语句进行分析。即我们写入苹果的时候分词成了苹和果，查询苹果的时候同样也是分词成苹和果去查。

ES内置分词器

Standard Analyzer - 默认分词器，按词切分，小写处理
Simple Analyzer - 按照非字母切分(符号被过滤), 小写处理
Stop Analyzer - 小写处理，停用词过滤(the,a,is)
Whitespace Analyzer - 按照空格切分，不转小写
Keyword Analyzer - 不分词，直接将输入当作输出
Patter Analyzer - 正则表达式，默认\W+(非字符分割)
Language - 提供了30多种常见语言的分词器
Customer Analyzer 自定义分词器

看概念太虚了！一定要动手实操才有用！我们可以用_analyze进行分析，会输出分词后的结果，举两个例子吧！其他的你也要自己课后动手试试哦！

#默认分词器 按词切分 小写处理

GET _analyze

{

  "analyzer": "standard",

  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."

}



#可以发现停用词被去掉了

GET _analyze

{

  "analyzer": "stop",

  "text": "2 running Quick brown-foxes leap over lazy dogs in the summer evening."

}

中文扩展分词器

现在来解决胖滚猪的问题，苹果明明一个词，不想让它分为两个呀！中文分词在所有搜索引擎中都是一个很大的难点，中文的句子应该是切分成一个个的词，但是一句中文，在不同的上下文，其实是不同的理解，例如: 这个苹果，不大好吃/这个苹果，不大，好吃。

有一些比较不错的中文分词插件:IK、THULAC等。我们可以试试用IK进行中文分词。

#安装插件

https://github.com/medcl/elasticsearch-analysis-ik/releases

在plugins目录下创建analysis-ik目录 解压zip包到当前目录 重启ES

#查看插件

bin/elasticsearch-plugin list

#查看安装的插件

GET http://localhost:9200/_cat/plugins?v

** IK分词器：支持自定义词库、支持热更新分词字典 **

ik_max_word: 会将文本做最细粒度的拆分，比如会将“这个苹果不大好吃”拆分为"这个，苹果，不大好，不大，好吃"等，会穷尽各种可能的组合；
ik_smart: 会做最粗粒度的拆分，比如会将“这个苹果不大好吃”拆分为"这个，苹果，不大，好吃"

curl -X GET "localhost:9200/_analyze?pretty" -H 'Content-Type: application/json' -d'

{

  "analyzer" : "ik_max_word",

  "text" : "这个苹果不大好吃"

}

'

** 如何使用分词器 **

列举了很多的分词器，那么在实际中该如何使用呢？看看下面这个代码演示就懂啦！

# 创建索引时候指定某个字段的分词器

PUT iktest

{

  "mappings": {

    "properties": {

      "content": {

        "type": "text",

        "analyzer": "ik_smart"

      }

    }

  }

}

# 插入一条文档

PUT iktest/_doc/1

{

  "content":"这个苹果不大好吃"

}

# 测试分词效果

GET /iktest/_analyze

{

  "field": "content",

  "text": "这个苹果不大好吃"

}

注：本文来源于公众号[胖滚猪学编程]，其中卡通形象来源于微信表情包"胖滚家族"，且已获作者的许可。

本文来源于公众号【胖滚猪学编程】一个集颜值与才华于一身的女程序媛。以漫画形式让编程so easy and interesting。

【漫画】ES原理必知必会的倒排索引和分词的更多相关文章

Elasticsearch必知必会的干货知识一：ES索引文档的CRUD
若在传统DBMS 关系型数据库中查询海量数据,特别是模糊查询,一般我们都是使用like %查询的值%,但这样会导致无法应用索引,从而形成全表扫描效率低下,即使是在有索引的字段精确值查找,面对海量数 ...
Elasticsearch必知必会的干货知识二：ES索引操作技巧
该系列上一篇文章<Elasticsearch必知必会的干货知识一:ES索引文档的CRUD> 讲了如何进行index的增删改查,本篇则侧重讲解说明如何对index进行创建.更改.迁移.查询配 ...
Java并发必知必会第三弹：用积木讲解ABA原理
Java并发必知必会第三弹:用积木讲解ABA原理可落地的 Spring Cloud项目:PassJava 本篇主要内容如下一.背景上一节我们讲了程序员深夜惨遭老婆鄙视,原因竟是CAS原理太简单? ...
2015 前端[JS]工程师必知必会
2015 前端[JS]工程师必知必会本文摘自:http://zhuanlan.zhihu.com/FrontendMagazine/20002850 ,因为好东东西暂时没看懂,所以暂时保留下来,供以 ...
[ 学习路线 ] 2015 前端(JS)工程师必知必会 (2)
http://segmentfault.com/a/1190000002678515?utm_source=Weibo&utm_medium=shareLink&utm_campaig ...
python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
crypto必知必会
crypto必知必会最近参加了个ctf比赛,在i春秋,南邮方面刷了一些crypto密码学题目,从中也增长了不少知识,在此关于常见的密码学知识做个小总结! Base编码 Base编码中用的比较多的是b ...
关于TCP/IP，必知必会的十个经典问题[转]
关于TCP/IP,必知必会的十个问题原创 2018-01-25 Ruheng 技术特工队本文整理了一些TCP/IP协议簇中需要必知必会的十大问题,既是面试高频问题,又是程序员必备基础素养. 一 ...
Android程序员必知必会的网络通信传输层协议——UDP和TCP
1.点评互联网发展至今已经高度发达,而对于互联网应用(尤其即时通讯技术这一块)的开发者来说,网络编程是基础中的基础,只有更好地理解相关基础知识,对于应用层的开发才能做到游刃有余. 对于Android ...
迈向高阶：优秀Android程序员必知必会的网络基础
1.前言网络通信一直是Android项目里比较重要的一个模块,Android开源项目上出现过很多优秀的网络框架,从一开始只是一些对HttpClient和HttpUrlConnection简易封装使用 ...

随机推荐

Pycharm中设置encoding
在Pycharm专业版中,为了防止文件在别的机器上出现乱码,所以需要进行字符编码的设置. 首先在Pycharm中的View中将下图中的Toolbar打上勾. 接着,工具栏就会出现,选中settings ...
Vue集成tinymce富文本编辑器并实现本地化指南（2019.11.21最新）
tinymce是一款综合口碑特别好.功能异常强大的富文本编辑器,在某些网站,甚至享有"宇宙最强富文本编辑器"的称号.那么,在Vue项目中如何集成呢?这并不困难,只需要参照官方教程 ...
Red 编程语言 2019 开发计划：全速前进！
开发四年只会写业务代码,分布式高并发都不会还做程序员? >>> Red 编程语言开发团队昨日发布了一篇 "Full steam ahead" 的文章,对其 2 ...
01-复杂度2 Maximum Subsequence Sum
01-复杂度2 Maximum Subsequence Sum (25分) 时间限制:200ms 内存限制:64MB 代码长度限制:16kB 判题程序:系统默认作者:陈越单位:浙江大学 htt ...
python（string 模块）
1.string 模块下关键字源码定义 whitespace = ' \t\n\r\v\f' ascii_lowercase = 'abcdefghijklmnopqrstuvwxyz' ascii_ ...
App 抓包代理设置
1.设置 Fiddler 打开 Fiddler,Tools --> Fiddler Options --> HTPS (配置完后记得要重启 Fiddler) 选中 "D ...
muduo网络库源码学习————原子性操作Atomic.h
原子性操作可以做到比互斥锁更小的开销,在多线程编程中原子性操作是非常有用的.Atomic.h文件位于muduo/base下,代码如下: // Use of this source code is go ...
分治思想--快速排序解决TopK问题
----前言最近一直研究算法,上个星期刷leetcode遇到从两个数组中找TopK问题,因此写下此篇,在一个数组中如何利用快速排序解决TopK问题. 先理清一个逻辑解决TopK问题→快速排序→递 ...
【学习笔记】Shell-1 变量：命名规范、变量赋值/取值/取消、局部变量/全局变量、预设环境变量
1.Shell变量从变量的实质上来说,变量名是指向一片用于存储数据的内存空间. Shell变量是一种弱类型的变量,即声明变量时不需要指定其变量类型,也不需求遵循“先声明再使用”的规定,想用即可用. ...
spring学习笔记（五）自定义spring-boot-starter（1）
在我们开始定义之前我们应该知道springBoot的大致运行原理,我们从springBoot启动类开始.首先我们看下这个注解,@SpringBootApplication,跟进去可以看到如下代码: @ ...

【漫画】ES原理 必知必会的倒排索引和分词