一、Lucene搜索过程总论

搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程。

其可用如下图示:

总共包括以下几个过程:

  1. IndexReader打开索引文件,读取并打开指向索引文件的流。
  2. 用户输入查询语句
  3. 将查询语句转换为查询对象Query对象树
  4. 构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分)。
  5. 构造Scorer对象树,用于计算打分(TermScorer.score())。
  6. 在构造Scorer对象树的过程中,其叶子节点的TermScorer会将词典和倒排表从索引中读出来。
  7. 构造SumScorer对象树,其是为了方便合并倒排表对Scorer对象树的从新组织,它的叶子节点仍为TermScorer,包含词典和倒排表。此步将倒排表合并后得到结果文档集,并对结果文档计算打分公式中的蓝色部分。打分公式中的求和符合,并非简单的相加,而是根据子查询倒排表的合并方式(与或非)来对子查询的打分求和,计算出父查询的打分。
  8. 将收集的结果集合及打分返回给用户。

二、Lucene搜索详细过程

2.1、打开IndexReader指向索引文件夹

代码为:

IndexReader reader = IndexReader.open(FSDirectory.open(indexDir));

其实是调用了DirectoryReader.open(Directory, IndexDeletionPolicy, IndexCommit, boolean, int) 函数,其主要作用是生成一个SegmentInfos.FindSegmentsFile对象,并用它来找到此索引文件中所有的段,并打开这些段。

SegmentInfos.FindSegmentsFile.run(IndexCommit commit)主要做以下事情:

2.1.1、找到最新的segment_N文件

  • 由于segment_N是整个索引中总的元数据,因而正确的选择segment_N更加重要。
  • 然而有时候为了使得索引能够保存在另外的存储系统上,有时候需要用NFS mount一个远程的磁盘来存放索引,然而NFS为了提高性能,在本地有Cache,因而有可能使得此次打开的索引不是另外的writer写入的最新信息,所以在此处用了双保险。
  • 一方面,列出所有的segment_N,并取出其中的最大的N,设为genA

String[] files = directory.listAll();

long genA = getCurrentSegmentGeneration(files);

long getCurrentSegmentGeneration(String[] files) {

long max = -1;

for (int i = 0; i < files.length; i++) {

String file = files[i];

if (file.startsWith(IndexFileNames.SEGMENTS) //"segments_N"

&& !file.equals(IndexFileNames.SEGMENTS_GEN)) { //"segments.gen"

long gen = generationFromSegmentsFileName(file);

if (gen > max) {

max = gen;

}

}

}

return max;

}

  • 另一方面,打开segment.gen文件,从中读出N,设为genB

IndexInput genInput = directory.openInput(IndexFileNames.SEGMENTS_GEN);

int version = genInput.readInt();

long gen0 = genInput.readLong();

long gen1 = genInput.readLong();

if (gen0 == gen1) {

genB = gen0;

}

  • 在genA和genB中去较大者,为gen,并用此gen构造要打开的segments_N的文件名

if (genA > genB)

gen = genA;

else

gen = genB;

String segmentFileName = IndexFileNames.fileNameFromGeneration(IndexFileNames.SEGMENTS, "", gen); //segmentFileName    "segments_4"

2.1.2、通过segment_N文件中保存的各个段的信息打开各个段

  • 从segment_N中读出段的元数据信息,生成SegmentInfos

2.1.3、得到的IndexReader对象如下

reader    ReadOnlyDirectoryReader  (id=466)    
    closed    false    
    deletionPolicy    null

//索引文件夹   
    directory    SimpleFSDirectory  (id=31)    
        checked    false    
        chunkSize    104857600    
        directory    File  (id=487)    
            path    "D:\\lucene-3.0.0\\TestSearch\\index"    
            prefixLength    3    
        isOpen    true    
        lockFactory    NativeFSLockFactory  (id=488)    
    hasChanges    false    
    hasDeletions    false    
    maxDoc    12    
    normsCache    HashMap<K,V>  (id=483)    
    numDocs    -1    
    readOnly    true    
    refCount    1    
    rollbackHasChanges    false    
    rollbackSegmentInfos    null

//段元数据信息 
    segmentInfos    SegmentInfos  (id=457)     
        elementCount    3    
        elementData    Object[10]  (id=532)    
            [0]    SegmentInfo  (id=464)    
                delCount    0    
                delGen    -1    
                diagnostics    HashMap<K,V>  (id=537)    
                dir    SimpleFSDirectory  (id=31)    
                docCount    4    
                docStoreIsCompoundFile    false    
                docStoreOffset    -1    
                docStoreSegment    "_0"    
                files    null    
                hasProx    true    
                hasSingleNormFile    true    
                isCompoundFile    1    
                name    "_0"    
                normGen    null    
                preLockless    false    
                sizeInBytes    -1    
            [1]    SegmentInfo  (id=517)    
                delCount    0    
                delGen    -1    
                diagnostics    HashMap<K,V>  (id=542)    
                dir    SimpleFSDirectory  (id=31)    
                docCount    4    
                docStoreIsCompoundFile    false    
                docStoreOffset    -1    
                docStoreSegment    "_1"    
                files    null    
                hasProx    true    
                hasSingleNormFile    true    
                isCompoundFile    1    
                name    "_1"    
                normGen    null    
                preLockless    false    
                sizeInBytes    -1    
            [2]    SegmentInfo  (id=470)    
                delCount    0    
                delGen    -1    
                diagnostics    HashMap<K,V>  (id=547)    
                dir    SimpleFSDirectory  (id=31)    
                docCount    4    
                docStoreIsCompoundFile    false    
                docStoreOffset    -1    
                docStoreSegment    "_2"    
                files    null    
                hasProx    true    
                hasSingleNormFile    true    
                isCompoundFile    1    
                name    "_2"    
                normGen    null    
                preLockless    false    
                sizeInBytes    -1     
        generation    4    
        lastGeneration    4    
        modCount    4    
        pendingSegnOutput    null    
        userData    HashMap<K,V>  (id=533)    
        version    1268193441675    
    segmentInfosStart    null    
    stale    false    
    starts    int[4]  (id=484)

//每个段的Reader 
    subReaders    SegmentReader[3]  (id=467)    
        [0]    ReadOnlySegmentReader  (id=492)    
            closed    false    
            core    SegmentReader$CoreReaders  (id=495)    
                cfsDir    CompoundFileReader  (id=552)    
                cfsReader    CompoundFileReader  (id=552)    
                dir    SimpleFSDirectory  (id=31)    
                fieldInfos    FieldInfos  (id=553)    
                fieldsReaderOrig    FieldsReader  (id=554)    
                freqStream    CompoundFileReader$CSIndexInput  (id=555)    
                proxStream    CompoundFileReader$CSIndexInput  (id=556)    
                readBufferSize    1024    
                ref    SegmentReader$Ref  (id=557)    
                segment    "_0"    
                storeCFSReader    null    
                termsIndexDivisor    1    
                termVectorsReaderOrig    null    
                tis    TermInfosReader  (id=558)    
                tisNoIndex    null    
            deletedDocs    null    
            deletedDocsDirty    false    
            deletedDocsRef    null    
            fieldsReaderLocal    SegmentReader$FieldsReaderLocal  (id=496)    
            hasChanges    false    
            norms    HashMap<K,V>  (id=500)    
            normsDirty    false    
            pendingDeleteCount    0    
            readBufferSize    1024    
            readOnly    true    
            refCount    1    
            rollbackDeletedDocsDirty    false    
            rollbackHasChanges    false    
            rollbackNormsDirty    false    
            rollbackPendingDeleteCount    0    
            si    SegmentInfo  (id=464)    
            singleNormRef    SegmentReader$Ref  (id=504)    
            singleNormStream    CompoundFileReader$CSIndexInput  (id=506)    
            termVectorsLocal    CloseableThreadLocal<T>  (id=508)    
        [1]    ReadOnlySegmentReader  (id=493)    
            closed    false    
            core    SegmentReader$CoreReaders  (id=511)    
                cfsDir    CompoundFileReader  (id=561)    
                cfsReader    CompoundFileReader  (id=561)    
                dir    SimpleFSDirectory  (id=31)    
                fieldInfos    FieldInfos  (id=562)    
                fieldsReaderOrig    FieldsReader  (id=563)    
                freqStream    CompoundFileReader$CSIndexInput  (id=564)    
                proxStream    CompoundFileReader$CSIndexInput  (id=565)    
                readBufferSize    1024    
                ref    SegmentReader$Ref  (id=566)    
                segment    "_1"    
                storeCFSReader    null    
                termsIndexDivisor    1    
                termVectorsReaderOrig    null    
                tis    TermInfosReader  (id=567)    
                tisNoIndex    null    
            deletedDocs    null    
            deletedDocsDirty    false    
            deletedDocsRef    null    
            fieldsReaderLocal    SegmentReader$FieldsReaderLocal  (id=512)    
            hasChanges    false    
            norms    HashMap<K,V>  (id=514)    
            normsDirty    false    
            pendingDeleteCount    0    
            readBufferSize    1024    
            readOnly    true    
            refCount    1    
            rollbackDeletedDocsDirty    false    
            rollbackHasChanges    false    
            rollbackNormsDirty    false    
            rollbackPendingDeleteCount    0    
            si    SegmentInfo  (id=517)    
            singleNormRef    SegmentReader$Ref  (id=519)    
            singleNormStream    CompoundFileReader$CSIndexInput  (id=520)    
            termVectorsLocal    CloseableThreadLocal<T>  (id=521)    
        [2]    ReadOnlySegmentReader  (id=471)    
            closed    false    
            core    SegmentReader$CoreReaders  (id=475)    
                cfsDir    CompoundFileReader  (id=476)    
                cfsReader    CompoundFileReader  (id=476)    
                dir    SimpleFSDirectory  (id=31)    
                fieldInfos    FieldInfos  (id=480)    
                fieldsReaderOrig    FieldsReader  (id=570)    
                freqStream    CompoundFileReader$CSIndexInput  (id=571)    
                proxStream    CompoundFileReader$CSIndexInput  (id=572)    
                readBufferSize    1024    
                ref    SegmentReader$Ref  (id=573)    
                segment    "_2"    
                storeCFSReader    null    
                termsIndexDivisor    1    
                termVectorsReaderOrig    null    
                tis    TermInfosReader  (id=574)    
                tisNoIndex    null    
            deletedDocs    null    
            deletedDocsDirty    false    
            deletedDocsRef    null    
            fieldsReaderLocal    SegmentReader$FieldsReaderLocal  (id=524)    
            hasChanges    false    
            norms    HashMap<K,V>  (id=525)    
            normsDirty    false    
            pendingDeleteCount    0    
            readBufferSize    1024    
            readOnly    true    
            refCount    1    
            rollbackDeletedDocsDirty    false    
            rollbackHasChanges    false    
            rollbackNormsDirty    false    
            rollbackPendingDeleteCount    0    
            si    SegmentInfo  (id=470)    
            singleNormRef    SegmentReader$Ref  (id=527)    
            singleNormStream    CompoundFileReader$CSIndexInput  (id=528)    
            termVectorsLocal    CloseableThreadLocal<T>  (id=530)    
    synced    HashSet<E>  (id=485)    
    termInfosIndexDivisor    1    
    writeLock    null    
    writer    null

从上面的过程来看,IndexReader有以下几个特性:

  • 段元数据信息已经被读入到内存中,因而索引文件夹中因为新添加文档而新增加的段对已经打开的reader是不可见的。
  • .del文件已经读入内存,因而其他的reader或者writer删除的文档对打开的reader也是不可见的。
  • 打开的reader已经有inputstream指向cfs文件,从段合并的过程我们知道,一个段文件从生成起就不会改变,新添加的文档都在新的段中,删除的文档都在.del中,段之间的合并是生成新的段,而不会改变旧的段,只不过在段的合并过程中,会将旧的段文件删除,这没有问题,因为从操作系统的角度来讲,一旦一个文件被打开一个inputstream也即打开了一个文件描述符,在内核中,此文件会保持reference count,只要reader还没有关闭,文件描述符还在,文件是不会被删除的,仅仅reference count减一。
  • 以上三点保证了IndexReader的snapshot的性质,也即一个IndexReader打开一个索引,就好像对此索引照了一张像,无论背后索引如何改变,此IndexReader在被重新打开之前,看到的信息总是相同的。
  • 严格的来讲,Lucene的文档号仅仅对打开的某个reader有效,当索引发生了变化,再打开另外一个reader的时候,前面reader的文档0就不一定是后面reader的文档0了,因而我们进行查询的时候,从结果中得到文档号的时候,一定要在reader关闭之前应用,从存储域中得到真正能够唯一标识你的业务逻辑中的文档的信息,如url,md5等等,一旦reader关闭了,则文档号已经无意义,如果用其他的reader查询这些文档号,得到的可能是不期望的文档。

2.2、打开IndexSearcher

代码为:

IndexSearcher searcher = new IndexSearcher(reader);

其过程非常简单:

private IndexSearcher(IndexReader r, boolean closeReader) {

reader = r;

//当关闭searcher的时候,是否关闭其reader

this.closeReader = closeReader;

 //对文档号进行编号

List<IndexReader> subReadersList = new ArrayList<IndexReader>();

gatherSubReaders(subReadersList, reader);

subReaders = subReadersList.toArray(new IndexReader[subReadersList.size()]);

docStarts = new int[subReaders.length];

int maxDoc = 0;

for (int i = 0; i < subReaders.length; i++) {

docStarts[i] = maxDoc;

maxDoc += subReaders[i].maxDoc();

}

}

IndexSearcher表面上看起来好像仅仅是reader的一个封装,它的很多函数都是直接调用reader的相应函数,如:int docFreq(Term term),Document doc(int i),int maxDoc()。然而它提供了两个非常重要的函数:

因而在某些应用之中,只想得到某个词的倒排表的时候,最好不要用IndexSearcher,而直接用IndexReader.termDocs(Term term),则省去了打分的计算。

2.3、QueryParser解析查询语句生成查询对象

代码为:

QueryParser parser = new QueryParser(Version.LUCENE_CURRENT, "contents", new StandardAnalyzer(Version.LUCENE_CURRENT));

Query query = parser.parse("+(+apple* -boy) (cat* dog) -(eat~ foods)");

此过程相对复杂,涉及JavaCC,QueryParser,分词器,查询语法等,本章不会详细论述,会在后面的章节中一一说明。

此处唯一要说明的是,根据查询语句生成的是一个Query树,这棵树很重要,并且会生成其他的树,一直贯穿整个索引过程。

对于Query对象有以下说明:

  • BooleanQuery即所有的子语句按照布尔关系合并

    • +也即MUST表示必须满足的语句
    • SHOULD表示可以满足的,minNrShouldMatch表示在SHOULD中必须满足的最小语句个数,默认是0,也即既然是SHOULD,也即或的关系,可以一个也不满足(当然没有MUST的时候除外)。
    • -也即MUST_NOT表示必须不能满足的语句
  • 树的叶子节点中:
    • 最基本的是TermQuery,也即表示一个词
    • 当然也可以是PrefixQuery和FuzzyQuery,这些查询语句由于特殊的语法,可能对应的不是一个词,而是多个词,因而他们都有rewriteMethod对象指向MultiTermQuery的Inner Class,表示对应多个词,在查询过程中会得到特殊处理。

2.4、搜索查询对象

代码为:

TopDocs docs = searcher.search(query, 50);

其最终调用search(createWeight(query), filter, n);

索引过程包含以下子过程:

  • 创建weight树,计算term weight
  • 创建scorer及SumScorer树,为合并倒排表做准备
  • 用SumScorer进行倒排表合并
  • 收集文档结果集合及计算打分

Lucene学习笔记: 五,Lucene搜索过程解析的更多相关文章

  1. Lucene学习笔记(更新)

    1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html    

  2. SQL反模式学习笔记17 全文搜索

    目标:全文搜索 使用SQL搜索关键字,同时保证快速和精确,依旧是相当地困难. SQL的一个基本原理(以及SQL所继承的关系原理)就是一列中的单个数据是原子性的. 反模式:模式匹配 使用Like 或者正 ...

  3. python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍

    python3.4学习笔记(五) IDLE显示行号问题,插件安装和其他开发工具介绍 IDLE默认不能显示行号,使用ALT+G 跳到对应行号,在右下角有显示光标所在行.列.pycharm免费社区版.Su ...

  4. Linux学习笔记(五) 账号管理

    1.用户与组账号 用户账号:包括实际人员和逻辑性对象(例如应用程序执行特定工作的账号) 每一个用户账号包含一个唯一的用户 ID 和组 ID 标准用户是系统安装过程中自动创建的用户账号,其中除 root ...

  5. Sharepoint学习笔记—习题系列--70-576习题解析 --索引目录

        Sharepoint学习笔记—习题系列--70-576习题解析  为便于查阅,这里整理并列出了70-576习题解析系列的所有问题,有些内容可能会在以后更新. 需要事先申明的是:     1. ...

  6. C#可扩展编程之MEF学习笔记(五):MEF高级进阶

    好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...

  7. Sharepoint学习笔记—习题系列--70-573习题解析 --索引目录

                  Sharepoint学习笔记—习题系列--70-573习题解析 为便于查阅,这里整理并列出了我前面播客中的关于70-573习题解析系列的所有问题,有些内容可能会在以后更新, ...

  8. (转)Qt Model/View 学习笔记 (五)——View 类

    Qt Model/View 学习笔记 (五) View 类 概念 在model/view架构中,view从model中获得数据项然后显示给用户.数据显示的方式不必与model提供的表示方式相同,可以与 ...

  9. java之jvm学习笔记五(实践写自己的类装载器)

    java之jvm学习笔记五(实践写自己的类装载器) 课程源码:http://download.csdn.net/detail/yfqnihao/4866501 前面第三和第四节我们一直在强调一句话,类 ...

  10. openstack学习笔记一 虚拟机启动过程代码跟踪

    openstack学习笔记一 虚拟机启动过程代码跟踪 本文主要通过对虚拟机创建过程的代码跟踪.观察虚拟机启动任务状态的变化,来透彻理解openstack各组件之间的作用过程. 当从horizon界面发 ...

随机推荐

  1. Photoshop CS4序列号过期的问题

    1)在网络上搜寻一些PS CS4序列号: 如1330-1221-6824-4838-0308-6823,1330-1283-7461-4574-7002-2504,1330-1795-2880-537 ...

  2. 1、Singleton 单件(创建模式)

    一.Singleton模式主要应用在一些特殊的类,在整个系统运行中,有且仅有一个实例的场景 二.Singleton模式分为单线程与多线程情况,当然多线程一样适应单线程 单线程:在这种情况下比较容易,因 ...

  3. MyEclipse 2014 + JSP+ Servlet

    来自:http://blog.csdn.net/21aspnet/article/details/21867241 1.安装准备 1).下载安装MyEclipse2014,这已经是最新版本. 2).下 ...

  4. Django模型修改及数据迁移

    Migrations Django中对Model进行修改是件麻烦的事情,syncdb命令仅仅创建数据库里还没有的表,它并不对已存在的数据表进行同步修改,也不处理数据模型的删除. 如果你新增或修改数据模 ...

  5. 用matlab训练数字分类的深度神经网络Training a Deep Neural Network for Digit Classification

    This example shows how to use Neural Network Toolbox™ to train a deep neural network to classify ima ...

  6. javascript正则表达式控制input只能输入数字

    不能输入中文 <input type="text" name="textfield"  onkeyup="this.value=this.val ...

  7. 9本java程序员必读的书

    来源:http://mp.weixin.qq.com/s?__biz=MjM5NzA1MTcyMA==&mid=202904638&idx=2&sn=21dd20438e32a ...

  8. lightOJ 1132 Summing up Powers(矩阵 二分)

    题目链接:http://lightoj.com/volume_showproblem.php?problem=1132 题意:给出n和m.求sum(i^m)%2^32.(1<=i<=n) ...

  9. TCSRM 593 div2(1000)(dp)

    Problem Statement      The pony Rainbow Dash wants to choose her pet. There are N animals who want t ...

  10. UVa 1515 (最小割) Pool construction

    题意: 输入一个字符矩阵,'.'代表洞,'#'代表草地.可以把草改成洞花费为d,或者把洞改成草花费为f,最后还要在草和洞之间修围栏花费为b. 但要保证最外一圈是草,求最小费用. 分析: 还不是特别理解 ...