Lucene 源码分析之倒排索引（二）

本文以及后面几篇文章将讲解如何定位 Lucene 中的倒排索引。内容很多，唯有静下心才能跟着思路遨游。

我们可以思考一下，哪个步骤与倒排索引有关，很容易想到检索文档一定是要查询倒排列表的，那么就从此处入手。检索文档通过调用 IndexSearcher.search(Query query, int n) 方法返回匹配的文档。

public class IndexSearcher {

    public TopDocs search(Query query, int n) throws IOException {

        return searchAfter(null, query, n);

    }

    public TopDocs searchAfter(ScoreDoc after, Query query, int numHits) throws IOException {

        // ...

        return search(query, manager);

    }

    public <C extends Collector, T> T search(Query query, CollectorManager<C, T> collectorManager) throws IOException {

        if (executor == null) {

            final C collector = collectorManager.newCollector();

            search(query, collector);

            return collectorManager.reduce(Collections.singletonList(collector));

        }

        // ...

    }

}

上面是 search 的调用链，最终调用的核心方法是 reduce(...)，也就是说 reduce(...) 会返回匹配的文档。

下文通过聚焦 reduce(...) 方法定位 Lucene 中的倒排索引。

reduce(...) 方法的形参是 Collections.singletonList(collector)，collector 是由 CollectorManager.newCollector() 方法创建的，而 CollectorManager 创建于上面代码中第二个方法 searchAfter 方法中的匿名内部类，代码如下。

public class IndexSearcher {

    public TopDocs searchAfter(ScoreDoc after, Query query, int numHits) throws IOException {

        // ...

        final CollectorManager<TopScoreDocCollector, TopDocs> manager = new CollectorManager<TopScoreDocCollector, TopDocs>() {

            @Override

            public TopScoreDocCollector newCollector() throws IOException {

                return TopScoreDocCollector.create(cappedNumHits, after);

            }

            // ...

        };

        // ...

    }

}

public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {

    public static TopScoreDocCollector create(int numHits, ScoreDoc after) {

        return new SimpleTopScoreDocCollector(numHits);

    }

}

也就是说 reduce 的形参是一个集合，该集合包含一个 SimpleTopScoreDocCollector 对象。

回到 reduce 的内部实现，调用方也是 searchAfter 方法中的匿名内部类 CollectorManager，代码如下。

public class IndexSearcher {

    public TopDocs searchAfter(ScoreDoc after, Query query, int numHits) throws IOException {

        // ...

        final CollectorManager<TopScoreDocCollector, TopDocs> manager = new CollectorManager<TopScoreDocCollector, TopDocs>() {

            // ...

            @Override

            public TopDocs reduce(Collection<TopScoreDocCollector> collectors) throws IOException {

                final TopDocs[] topDocs = new TopDocs[collectors.size()];

                int i = 0;

                for (TopScoreDocCollector collector : collectors) {

                    topDocs[i++] = collector.topDocs();

                }

                return TopDocs.merge(0, cappedNumHits, topDocs, true);

            }

        };

        // ...

    }

}

由于 reduce(...) 方法的形参仅有一个元素，reduce(...) 方法退化成执行 SimpleTopScoreDocCollector.topDocs()，其结果就是匹配的文档。

public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {

    private static class SimpleTopScoreDocCollector extends TopScoreDocCollector {

        // ...

    }

}

public abstract class TopDocsCollector<T extends ScoreDoc> implements Collector {

    public TopDocs topDocs() {

        return topDocs(0, topDocsSize());

    }

    public TopDocs topDocs(int start, int howMany) {

        // ...

        ScoreDoc[] results = new ScoreDoc[howMany];

        // ...

        populateResults(results, howMany);

        return newTopDocs(results, start);

    }

    protected void populateResults(ScoreDoc[] results, int howMany) {

        for (int i = howMany - 1; i >= 0; i--) {

            results[i] = pq.pop();

        }

    }

}

SimpleTopScoreDocCollector 继承自 TopScoreDocCollector 继承自 TopDocsCollector，实际执行 TopDocsCollector.topDocs()。

时刻记住 reduce() 返回匹配的文档，也就是说 TopDocsCollector. topDocs() 返回匹配的文档。 results 作为 NewTopDocs 的成员变量一定包含了匹配的文档，results 又来自于 pq.pop()，那么 pq 一定包含了匹配的文档。

下面通过聚焦 SimpleTopScoreDocCollector 对象的 pq 定位倒排索引。

回顾 CollectorManager.reduce(...) 所在的 search(...) 方法，在初始化 SimpleTopScoreDocCollector 和 reduce(...) 之间唯一的方法就是另一个 search(…) 方法，一定是在这个方法中赋值了 pq，代码如下。

public class IndexSearcher {

    public void search(Query query, Collector results) throws IOException {

        search(leafContexts, createNormalizedWeight(query, results.needsScores()), results);

    }

    protected void search(List<LeafReaderContext> leaves, Weight weight, Collector collector) throws IOException {

        for (LeafReaderContext ctx : leaves) { // search each subreader

            final LeafCollector leafCollector = collector.getLeafCollector(ctx);

            BulkScorer scorer = weight.bulkScorer(ctx);

            scorer.score(leafCollector, ctx.reader().getLiveDocs());

        }

    }

}

一共就三个方法，究竟是在哪个方法中赋值了 pq 呢？一个个分析。

第一个方法，collector.getLeafCollector(ctx) 实际调用的就是 SimpleTopScoreDocCollector.getLeafCollector(ctx)。

public abstract class TopScoreDocCollector extends TopDocsCollector<ScoreDoc> {

    private static class SimpleTopScoreDocCollector extends TopScoreDocCollector {

        @Override

        public LeafCollector getLeafCollector(LeafReaderContext context) throws IOException {

            final int docBase = context.docBase;

            return new ScorerLeafCollector() {

                @Override

                public void collect(int doc) throws IOException {

                    float score = scorer.score();

                    totalHits++;

                    pqTop.doc = doc + docBase;

                    pqTop.score = score;

                    pqTop = pq.updateTop();

                }

            };

        }

    }

}

可以看到 getLeafCollector(...) 方法返回的 ScorerLeafCollector 类提供了 collect(doc) 方法对 pq 进行操作。也就是说找到调用 collect(doc) 方法的地方也就找到了倒排索引。

下面通过聚焦找到调用 collect() 方法的来源来定位倒排索引。

第二个方法，weight.bulkScorer(ctx) 创建 BulkScorer，而 weight 由 createNormalizedWeight(…) 创建。

public class IndexSearcher {

    public Weight createNormalizedWeight(Query query, boolean needsScores) throws IOException {

        // ...

        return createWeight(query, needsScores, 1f);

    }

    public Weight createWeight(Query query, boolean needsScores, float boost) throws IOException {

        // ...

        Weight weight = query.createWeight(this, needsScores, boost);

        // ...

        return weight;

    }

}

假设 query 是最简单的 TermQuery，createWeight(…) 代码如下。

public class TermQuery extends Query {

    @Override

    public Weight createWeight(IndexSearcher searcher, boolean needsScores, float boost) throws IOException {

        // ...

        return new TermWeight(searcher, needsScores, boost, termState);

    }

}

最终返回的是 TermWeight 对象，那么 weight.bulkScorer(ctx) 实现类代码如下。

public abstract class Weight implements SegmentCacheable {

    public BulkScorer bulkScorer(LeafReaderContext context) throws IOException {

        // ...

        return new DefaultBulkScorer(scorer);

    }

}

最终返回的是一个 DefaultBulkScorer 对象。

第三个方法，scorer.score(…)，实际调用类是 DefaultBulkScorer，代码如下。

public abstract class Weight implements SegmentCacheable {

    protected static class DefaultBulkScorer extends BulkScorer {

        // ...

    }

}

public abstract class BulkScorer {

    public void score(LeafCollector collector, Bits acceptDocs) throws IOException {

        final int next = score(collector, acceptDocs, 0, DocIdSetIterator.NO_MORE_DOCS);

    }

}

BulkScorer.score(…) 内部调用的还是 DefaultBulkScorer 中重构的 score(…) 方法，代码如下。

public abstract class Weight implements SegmentCacheable {

    protected static class DefaultBulkScorer extends BulkScorer {

        @Override

        public int score(LeafCollector collector, Bits acceptDocs, int min, int max) throws IOException {

            collector.setScorer(scorer);

            if (scorer.docID() == -1 && min == 0 && max == DocIdSetIterator.NO_MORE_DOCS) {

                scoreAll(collector, iterator, twoPhase, acceptDocs);

                return DocIdSetIterator.NO_MORE_DOCS;

            }

        }

        static void scoreAll(LeafCollector collector, DocIdSetIterator iterator, TwoPhaseIterator twoPhase, Bits acceptDocs) throws IOException {

            if (twoPhase == null) {

                for (int doc = iterator.nextDoc(); doc != DocIdSetIterator.NO_MORE_DOCS; doc = iterator.nextDoc()) {

                    if (acceptDocs == null || acceptDocs.get(doc)) {

                        collector.collect(doc);

                    }

                }

            }

        }

    }

}

看到了什么！找到了调用 collect(…) 方法的代码。

Lucene 源码分析之倒排索引（二）的更多相关文章

Lucene 源码分析之倒排索引（三）
上文找到了 collect(-) 方法,其形参就是匹配的文档 Id,根据代码上下文,其中 doc 是由 iterator.nextDoc() 获得的,那 DefaultBulkScorer.itera ...
Lucene 源码分析之倒排索引（一）
倒排索引是 Lucene 的核心数据结构,该系列文章将从源码层面(源码版本:Lucene-7.3.0)分析.该系列文章将以如下的思路展开. 什么是倒排索引? 如何定位 Lucene 中的倒排索引? 倒 ...
手机自动化测试：appium源码分析之bootstrap二
手机自动化测试:appium源码分析之bootstrap二在bootstrap项目中的io.appium.android.bootstrap.handler包中的类都是对应的指令类, priva ...
一个lucene源码分析的博客
ITpub上的一个lucene源码分析的博客,写的比较全面:http://blog.itpub.net/28624388/cid-93356-list-1/
lucene源码分析的一些资料
针对lucene6.1较新的分析:http://46aae4d1e2371e4aa769798941cef698.devproxy.yunshipei.com/conansonic/article/d ...
spark 源码分析之十二 -- Spark内置RPC机制剖析之八Spark RPC总结
在spark 源码分析之五 -- Spark内置RPC机制剖析之一创建NettyRpcEnv中,剖析了NettyRpcEnv的创建过程. Dispatcher.NettyStreamManager.T ...
Netty源码分析（十二）----- 心跳服务之 IdleStateHandler 源码分析
什么是心跳机制? 心跳说的是在客户端和服务端在互相建立ESTABLISH状态的时候,如何通过发送一个最简单的包来保持连接的存活,还有监控另一边服务的可用性等. 心跳包的作用保活Q:为什么说心跳机制能 ...
Android源码分析（十二）-----Android源码中如何自定义TextView实现滚动效果
一:如何自定义TextView实现滚动效果继承TextView基类重写构造方法修改isFocused()方法,获取焦点. /* * Copyright (C) 2015 The Android ...
ABP源码分析三十二：ABP.SignalR
Realtime Realtime是ABP底层模块提供的功能,用于管理在线用户.它是使用SignalR实现给在线用户发送通知的功能的前提 IOnlineClient/OnlineClient: 封装在 ...

随机推荐

Eclipse安装SVN插件(转载)
http://www.cnblogs.com/ruiati/p/3584120.html 1.下载最新的Eclipse,我的版本是3.7.2 indigo(Eclipse IDE for Java E ...
NIO 多线程
本文可看成是对Doug Lea Scalable IO in Java一文的翻译. 当前分布式计算 Web Services盛行天下,这些网络服务的底层都离不开对socket的操作.他们都有一个共同的 ...
MySQL 8 新特性之Invisible Indexes
背景索引是把双刃剑,在提升查询速度的同时会减慢DML的操作.毕竟,索引的维护需要一定的成本.所以,对于索引,要加上该加的,删除无用的.前者是加法,后者是减法.但在实际工作中,大家似乎更热衷于前者,而 ...
python结巴(jieba)分词
python结巴(jieba)分词一.特点 1.支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析. (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解 ...
C++堆栈问题
编写C++中的两个类一个只能在栈中分配空间一个只能在堆中分配. 解答: (1)代码如下 (2)堆栈分配内存的介绍一.一个经过编译的C/C++的程序占用的内存分成以下几个部分:1.栈区(stack ...
学会分析YUV数据
做视频采集与处理,自然少不了要学会分析YUV数据.因为从采集的角度来说,一般的视频采集芯片输出的码流一般都是YUV数据流的形式,而从视频处理(例如H.264.MPEG视频编解码)的角度来说,也是在原始 ...
AngularJS之备忘与诀窍
译自:<angularjs> 备忘与诀窍目前为止,之前的章节已经覆盖了Angular所有功能结构中的大多数,包括指令,服务,控制器,资源以及其它内容.但是我们知道有时候仅仅阅读是不够的. ...
Java 重入锁 ReentrantLock 原理分析
1.简介可重入锁ReentrantLock自 JDK 1.5 被引入,功能上与synchronized关键字类似.所谓的可重入是指,线程可对同一把锁进行重复加锁,而不会被阻塞住,这样可避免死锁的产生 ...
Lintcode401 Kth Smallest Number in Sorted Matrix solution 题解
[题目描述] Find the kth smallest number in at row and column sorted matrix. 在一个排序矩阵中找从小到大的第 k 个整数. 排序矩阵的 ...
Page.ClientScript.RegisterStartupScript用法小结
使用类型.键.脚本文本和指示是否添加脚本标记的布尔值向 Page 对象注册启动脚本. 参数 type 要注册的启动脚本的类型. key 要注册的启动脚本的键. script 要注册的启动脚本文本. a ...

Lucene 源码分析之倒排索引（二）

Lucene 源码分析之倒排索引（二）的更多相关文章

随机推荐

热门专题