Lucene01--倒排索引思想

yuanke 2024-10-02 06:32:10 原文

Lucene01--倒排索引思想

1、倒排索引的概念：

首先对数据按列拆分存储，然后对文档中的数据分词，对词条进行索引，并记录词条在文档中出现的位置。这样查找时只要找到了词条，就找到了对应的文档。概括来讲是先找到词条，然后看看哪些文档包含这些词条。

1.1 文档（Document）：

索引库中的每一条原始数据，例如一个网页信息，一件商品信息。

1.2 词条：

原始数据按照算法进行分词，得到的每一个词。

2、创建倒排索引流程

2.1 获得文档：比如要存储文章

2.2 创建文档列表

首先将数据按列进行拆分存储，类似于mysql的表存储，每一条数据，就是一个文档，形成文档列表。

假设文章有编号（docId）、标题（title）、内容（content）、评分（score）。每一条数据就是一篇文章。

2.3 创建倒排索引列表

然后对文档中的数据根据分词规则经常分词，得到词条。对词条进行编号，并以词条创建索引。然后记录下包含该词条的所有文档编号（以及其它信息）。

比如按照title字段进行分词

词ID 　　词典　　词所对应的文档id 　　词所对应的字段（域）

1 　　我的　　1，2，3 　　　　　　　　title

2 　　　祖国　　1 　　　　　　　　　　　title

3 　　家乡　　 2 　　　　　　　　　　　title

4 　　女友　 3 　　　　　　　　　　　title

整体流程如下

3、搜索流程

3.1 当用户输入任意的搜索关键词时，首先对用户输入的内容进行词拆分，得到要搜索的所有词条，比如用户根据标题搜索“我的老友”，拆分后就是“我的”、“老友”

3.2 然后拿着这些拆分后的词去倒排索引列表中进行匹配。找到这些词对应的所有文档编号。

3.3 最后根据这些编号去文档列表中找到文档

4、索引库

一个索引：一张文档列表 + 一张倒排索引表。

创建索引的流程也就是创建倒排索引的流程。

5、什么是Lucene？

如果理解了倒排索引思想，我们再来看看到底什么是Lucene？

Lucene是一个基于java开发全文检索工具包。

5.1 全文检索

5.1.1 定义1：全文检索是利用倒排索引技术对需要搜索的数据进行处理，然后提供快速匹配的技术。

5.1.2 定义2：先创建索引然后对索引进行搜索的过程，就是全文检索。

欢迎评论！

Lucene01--倒排索引思想的更多相关文章

ELK-全文检索技术-lucene
ELK : ELK是ElasticSearch,LogStash以及Kibana三个产品的首字母缩写一.倒排索引学习elk,必须先掌握倒排索引思想, 参考文档: https://www.cn ...
ElasticSearch所使用的倒排索引的思想和使用场景
背景: 在关系数据库系统里,索引是检索数据最有效率的方式,.但对于搜索引擎,它并不能满足其特殊要求: 1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至 ...
[Search Engine] 搜索引擎技术之倒排索引
倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石.可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找.删除等操作. 1. 倒排索引的思想倒排索引源于实际应用中需要根据属 ...
倒排索引压缩：改进的PForDelta算法
由于倒排索引文件往往占用巨大的磁盘空间,我们自然想到对数据进行压缩.同时,引进压缩算法后,使得磁盘占用减少,操作系统在query processing过程中磁盘读取效率也能提升.另外,压缩算法不仅要考 ...
倒排索引的AND操作
这是一道来自百度的面试题.倒排索引的AND操作. 倒排索引是以关键词作为索引项来索引文档的一种机制,如图中Brutus.Calpurnia.Caesar为关键词,2.4.8等等为文档ID. 现在有一个 ...
hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
作用域作用域链闭包思想 JS/C++比较
首先,我说的比较是指JS中这种思想/实现方式与C++编译原理中思想/实现方式的比较参考链接:(比较易懂的介绍,我主要写个人理解) 作用域链: http://www.cnblogs.com/dolph ...
Elaticsearch倒排索引
ES倒排索引基本原理索引(index)可以分为正序索引(Forward Indexes)和倒排索引(Inverted Index)两种.在关系型数据库中使用索引可以避免数据检索走全表扫描,将检索的时 ...
Elasticsearch 中为什么选择倒排索引而不选择 B 树索引
目录前言为什么全文索引不使用 B+ 树进行存储全文检索正排索引倒排索引倒排索引如何存储数据 FOR 压缩 RBM 压缩倒排索引如何存储字典树(Tria Tree) FST FSM 构建 ...

随机推荐

oracle利用透明网关访问mssql
遇到一个客户,有个需求,想将mssql中的数据抽取到oracle中.经过上网查找,感觉gateway这个工具可以实现,因此就搭建实验环境进行测试.首先在oracle delivery上面下载对应的安装 ...
Delphi在系统菜单中添加菜单项
unit dy219; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms ...
LFS Linux From Scratch 笔记（经验非教程）
做了一个自己的DIY Linux系统.从编译每一行代码,建立每一个文件系统结构开始. 创造自己的GNU/Linux系统,不同于任何发行版.按照的教程是来自 linuxfromscratch.org 来 ...
Java基础(二) 基本类型数据类型、包装类及自动拆装箱
我们知道基本数据类型包括byte, short, int, long, float, double, char, boolean,对应的包装类分别是Byte, Short, Integer, Long ...
从零开始实现放置游戏（七）——实现挂机战斗（5）RMS系统后台参数校验
前面几章实现了在RMS系统中进行数据的增删查改以及通过Excel批量导入.但仍有遗留的问题,比如在新增或编辑时,怪物的生命值.护甲等数据我们可以输入负值,这种数据是不合理且没有意义的.本章我们就实现服 ...
Nodejs操作MySQL - 增删改查
先安装npm模块项目 npm init 安装mysql npm install mysql --save Nodejs 连接msyql // 导入mysql const mysql = require ...
IIS7上传4M文件以上文件出现“Post大小超出允许的限制”错误解决方法
在web.config文件中的system.web节点中添加如下这句,即40M <system.web> <httpRuntime maxRequestLength = " ...
「玩转树莓派」树莓派 3B+ 配置无线WiFi
前言网线不方便还花钱,有自带的无线 WiFi 模块为啥不用. 网络模式这里我们先介绍两种网络模式,WPA-Personal 与 WPA-Enterprise. WPA-Personal 大多数家庭 ...
Centos6 samba服务配置
1.在阿里虚拟机中配置包源在ecs的 /etc/yum.repos.d 创建个 alios.repo,内容如下 [alios.$releasever.base.$basearch] name=al ...
spring 5.x 系列第8篇 —— 整合Redis客户端 Jedis和Redisson (代码配置方式)
文章目录一.说明 1.1 Redis 客户端说明 1.2 Redis可视化软件 1.3 项目结构说明 1.3 依赖说明二.spring 整合 jedis 2.1 新建基本配置文件和其映射类 2.2 ...