Lucene 源码分析之倒排索引（一）

倒排索引是 Lucene 的核心数据结构，该系列文章将从源码层面（源码版本：Lucene-7.3.0）分析。该系列文章将以如下的思路展开。

什么是倒排索引？
如何定位 Lucene 中的倒排索引？
倒排索引是如何搜索的？
倒排索引是如何增删改的？

本文将介绍什么是倒排索引。

了解什么是倒排索引，其实是去了解为什么要有倒排索引。考虑这样一种场景，给你很多篇文档，现在要求找出包含指定单词的文档。第一种解决方案，遍历所有文档，自然能得到结果。第二种解决方案，遍历所有文档，得到结果后记录下来，下次再有这种请求时直接读取结果。如果把所有单词的结果都记录下来，之后的任何请求都能直接从结果中读取，这个结果的集合就叫做倒排索引。

以两个文档为例：

1.hello world!

2.hello china!

如何找出包含 china 的文档？一眼扫过去就知道是第 2 个文档（但在文档数量很多内容很大的情况下，可能需要很多眼）。

但如果将所有结果（即倒排索引）提前记录如下。

单词	文档
hello	1,2
world	1
china	2

让你找出包含 china 的文档。不需要再去扫文档，根据倒排索引可知是第 2 个文档（在文档数量很多内容很大的情况下，能极大地提升效率）。

有些同学会问，两种解决方案都要去遍历文档，为什么采用第二种解决方案？因为后者只需要遍历一次，以后每次查询的时候直接查询倒排索引即可。

有些同学会问，如果采用第二种解决方案，当增删改文档的时候，倒排索引文件就不对了，那还是得重新遍历一次？不需要，将增删改文档转换为增删改倒排索引即可。

有些同学会问，增删改倒排索引的性能会不会很差？这个答案会在后面的文章中给出。而这也成为 Lucene 不断优化的目标之一。

Lucene 源码分析之倒排索引（一）的更多相关文章

Lucene 源码分析之倒排索引（三）
上文找到了 collect(-) 方法,其形参就是匹配的文档 Id,根据代码上下文,其中 doc 是由 iterator.nextDoc() 获得的,那 DefaultBulkScorer.itera ...
Lucene 源码分析之倒排索引（二）
本文以及后面几篇文章将讲解如何定位 Lucene 中的倒排索引.内容很多,唯有静下心才能跟着思路遨游. 我们可以思考一下,哪个步骤与倒排索引有关,很容易想到检索文档一定是要查询倒排列表的,那么就从此处 ...
一个lucene源码分析的博客
ITpub上的一个lucene源码分析的博客,写的比较全面:http://blog.itpub.net/28624388/cid-93356-list-1/
lucene源码分析的一些资料
针对lucene6.1较新的分析:http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/conansonic/article/d ...
lucene源码分析(1)基本要素
1.源码包 core: Lucene core library analyzers-common: Analyzers for indexing content in different langua ...
lucene源码分析(8)MergeScheduler
1.使用IndexWriter.java mergeScheduler.merge(this, MergeTrigger.EXPLICIT, newMergesFound); 2.定义MergeSch ...
lucene源码分析(7)Analyzer分析
1.Analyzer的使用 Analyzer使用在IndexWriter的构造方法 /** * Constructs a new IndexWriter per the settings given ...
lucene源码分析(6)Query分析
查询的入口 /** Lower-level search API. * * <p>{@link LeafCollector#collect(int)} is called for ever ...
lucene源码分析(5)lucence-group
1. 普通查询的用法 org.apache.lucene.search.IndexSearcher public void search(Query query, Collector results) ...

随机推荐

[转] Vuex入门（2）—— state,mapState,...mapState对象展开符详解
1.state state是什么? 定义:state(vuex) ≍ data (vue) vuex的state和vue的data有很多相似之处,都是用于存储一些数据,或者说状态值.这些值都将被挂载 ...
luogu2763 试题库问题
倘若某个试题已经被选到某个类型里了,那么它就不可再被选进别的类型了. 所以,对于每个类型,我们将其与汇连边,权值是它的要求的题目数量. 对于每个题目,我们将源与其连边,权值是1,代表只能用一次.然后再 ...
令人惊叹的Chrome浏览器插件
Chrome是一个简洁而又高效(高性能,高消耗)的浏览器.接下来让我吐血推荐一些常用的Chrome插件. 日常插件 uBlock Origin ----- 比Adblock性能更高的广告插件. Adk ...
以http server为例简要分析netty3实现
概要最近看了点netty3实现.从webbit项目作为口子.webbit项目是一个基于netty3做的http与websocket server.后面还会继续看下netty4,netty4有很多改进 ...
淘宝的TProfile分析
TProfile是一个用来抓取性能数据的工具.大概是去年的时候对其分析了一下,并将它改造成了用于分析学习开源产品时的一个trace工具(不是很完善,自己用够用).现在将之前的笔记翻出来,记录一下. 1 ...
Convolutional Networks for Image Semantic Segmentation
本系列文章由 @yhl_leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/52857657 把前段时间自己整理的一个 ...
九度oj 题目1079：手机键盘
题目描述: 按照手机键盘输入字母的方式,计算所花费的时间如:a,b,c都在“1”键上,输入a只需要按一次,输入c需要连续按三次. 如果连续两个字符不在同一个按键上,则可直接按,如:ad需要按两下,k ...
hibernate与struts框架实现增删改查
这里配置hibernate与struts不再过多赘述,配置搭建前文已经详细讲解,配置如下: hibernate.hbm.xml配置: <?xml version="1.0" ...
Leetcode 115 Distinct Subsequences 解题报告
Distinct Subsequences Total Accepted: 38466 Total Submissions: 143567My Submissions Question Solutio ...
Linux基础之Linux简介
Linux(英语发音:/ˈlɪnəks/ lin-əks)是一种自由和开放源代码的类UNIX操作系统. Linux简介 Linux(英语发音:/ˈlɪnəks/ lin-əks)是一种自由和开放源代码 ...

Lucene 源码分析之倒排索引（一）

Lucene 源码分析之倒排索引（一）的更多相关文章

随机推荐

热门专题