Solr Suggest组件的使用

使用suggest的原因，最主要就是相比于search速度快，In general, we need the autosuggest feature to satisfy two main requirements:

■ It must be fast; there are few things that are more annoying than a clunky type- ahead solution that cannot keep up with users as they type. The Suggester must be able to update the suggestions as the user types each character, so millisec- onds matter.

■ It should return ranked suggestions ordered by term frequency, as there is little benefit to suggesting rare terms that occur in only a few documents in your index, especially when the user has typed only a few characters.

lucene Suggest

http://iamyida.iteye.com/blog/2205114

其中分析了AnalyzingInfixSuggester类的相关源码，建立测试用例帮助理解整体过程。Suggest中手动根据其建立索引，在AnalyzingInfixSuggester类中，主要涉及到的属性有：

text：搜索关键字域，用户输入的搜索关键字是在该域上进行匹配，使用TextField，并进行store；
exacttext: 与text的唯一区别是使用StringField并且不进行Store；
contexts: 该域也是用于过滤的，只不过它为比较次要的过滤条件域；

先根据InputIterator建立索引，示例中手写了一个InputIterator来进行，InputIterator接口决定了用于suggest搜索的索引数据来源，用于suggest搜索的索引的每个默认域的域值都需要用户自定义，建立的过程中涉及到下面几个概念：

key: 用于搜索字域，用户输入的搜索关键字分词后的Term在这个域上进行匹配；
content: 就是一个Term集合，用于contexts上的域进行TermQuery，在关键词的基础上再加个限制条件让返回的热词列表更符合要求，例如分类，分组等信息（给定限定范围，搜索衬衫，在男装范围内）；
weight：指定一个数字类型(int, long)的域，搜索结果将按照该域进行降序排序；
payload：存储一个额外信息，以ByteBuf存储（其实就是byte[]方式存入索引），当搜索返回后，可以通过LookupResult结果对象的payload属性返回并反序列化该值。
allTermRequired: 搜索阶段，是否所有用户输入的关键词都需要全部匹配；

LookupResult包含了如下信息：

key:用户输入的搜索关键字，再返回给你
highlightKey：其实就是经过高亮的搜索关键字文本，假如你在搜索的时候设置了需要关键字高亮
value：即InputInterator接口中weight方法的返回值，即返回的当前热词的权重值，排序就是根据这个值排的
payload：就是InputInterator接口中payload方法中指定的payload信息，设计这个payload就是用来让你存一些任意你想存的信息，这就留给你们自己去发挥想象了。
contexts：同理即InputInterator接口中contexts方法的返回值再原样返回给你。

Suggest索引的建立

从lucene suggester的源码中可以看出，suggest在内部存在一个SearchManager和一个IndexWriter，建立索引：

@Override

  public void build(InputIterator iter) throws IOException {

    if (searcherMgr != null) {

      searcherMgr.close();

      searcherMgr = null;

    }

    if (writer != null) {

      writer.close();

      writer = null;

    }

    boolean success = false;

    try {

      // First pass: build a temporary normal Lucene index,

      // just indexing the suggestions as they iterate:

      writer = new IndexWriter(dir,

                               getIndexWriterConfig(getGramAnalyzer(), IndexWriterConfig.OpenMode.CREATE));

      //long t0 = System.nanoTime();

      // TODO: use threads?

      BytesRef text;

      while ((text = iter.next()) != null) {

        BytesRef payload;

        if (iter.hasPayloads()) {

          payload = iter.payload();

        } else {

          payload = null;

        }

        add(text, iter.contexts(), iter.weight(), payload);

      }

public void add(BytesRef text, Set<BytesRef> contexts, long weight, BytesRef payload) throws IOException {

    ensureOpen();

    writer.addDocument(buildDocument(text, contexts, weight, payload));

  }

关键是其中的buildDocument，可以看出是通过在其中建立内部的Document并存储来实现的

private Document buildDocument(BytesRef text, Set<BytesRef> contexts, long weight, BytesRef payload) throws IOException {

    String textString = text.utf8ToString();

    Document doc = new Document();

    FieldType ft = getTextFieldType();

    doc.add(new Field(TEXT_FIELD_NAME, textString, ft));

    doc.add(new Field("textgrams", textString, ft));

    doc.add(new StringField(EXACT_TEXT_FIELD_NAME, textString, Field.Store.NO));

    doc.add(new BinaryDocValuesField(TEXT_FIELD_NAME, text));

    doc.add(new NumericDocValuesField("weight", weight));

    if (payload != null) {

      doc.add(new BinaryDocValuesField("payloads", payload));

    }

    if (contexts != null) {

      for(BytesRef context : contexts) {

        doc.add(new StringField(CONTEXTS_FIELD_NAME, context, Field.Store.NO));

        doc.add(new SortedSetDocValuesField(CONTEXTS_FIELD_NAME, context));

      }

    }

    return doc;

  }

Suggest查询

使用suggest查询是通过lookup方法来完成的，查询过程使用的SORT是根据weight字段来定义的：

private static final Sort SORT = new Sort(new SortField("weight", SortField.Type.LONG, true));

建立一个比较大的BooleanQuery，其连接方式取决于allTermsRequired属性：

if (allTermsRequired) {

      occur = BooleanClause.Occur.MUST;

    } else {

      occur = BooleanClause.Occur.SHOULD;

    }

使用QueryAnalyzer进行切词，在最终的query加入单个TermQuery，注意这些Term都是以text为关键词的，

try (TokenStream ts = queryAnalyzer.tokenStream("", new StringReader(key.toString()))) {

      //long t0 = System.currentTimeMillis();

      ts.reset();

      final CharTermAttribute termAtt = ts.addAttribute(CharTermAttribute.class);

      final OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);

      String lastToken = null;

      query = new BooleanQuery.Builder();

      int maxEndOffset = -1;

      matchedTokens = new HashSet<>();

      while (ts.incrementToken()) {

        if (lastToken != null) {

          matchedTokens.add(lastToken);

          query.add(new TermQuery(new Term(TEXT_FIELD_NAME, lastToken)), occur);

        }

        lastToken = termAtt.toString();

        if (lastToken != null) {

          maxEndOffset = Math.max(maxEndOffset, offsetAtt.endOffset());

        }

      }

我们的示例中查询contexts的时候，需要将region的字符串转换为BytesRef数组。

Set<BytesRef> contexts = new HashSet<>();

        contexts.add(new BytesRef(region.getBytes("UTF8")));

        List<Lookup.LookupResult> results = suggester.lookup(name, contexts, 2, true, false);

至此，Suggest组件的基本流程梳理完成。

Solr Suggest组件

在Solr中是如何定义并使用suggest组件的，可以参考：https://cwiki.apache.org/confluence/display/solr/Suggester

首先，建立一个SearchComponent，用来设置提供suggest功能的组件

<searchComponent name="suggest" class="solr.SuggestComponent">

    <lst name="suggester">

      <str name="name">default</str>

      <str name="lookupImpl">FuzzyLookupFactory</str>

      <str name="dictionaryImpl">DocumentDictionaryFactory</str>

      <str name="field">suggest</str>

      <str name="weightField"></str>

      <str name="suggestAnalyzerFieldType">string</str>

      <str name="buildOnStartup">false</str>

    </lst>

  </searchComponent>

根据当前使用到的suggest组件，来绘制一份类图帮助理解整体过程：

LookupFactory可以根据当前使用到的SolrCore和配置项来创建一个Lucene Suggester（Lookup）组件，我们使用到的InputIterator是根据Directory类来提供的，这两个类均存在对应的工厂类。

我可以根据需要，选择不同的Suggester类，以及对应Directionary组合来共同完成suggest提示。

在requestHandler中也需要加入声明来进行/suggest，以相应http GET请求：

<requestHandler name="/suggest" class="org.apache.solr.handler.component.SearchHandler"

                  startup="lazy" >

    <lst name="defaults">

      <str name="suggest">true</str>

      <str name="suggest.count">10</str>

    </lst>

    <arr name="components">

      <str>suggest</str>

    </arr>

  </requestHandler>

为了验证各种类型的Suggester，我们可以在本地加入测试用例，开展测试相关工作。

在AnalyzingInfixSuggester中，InputIterator的使用方式如下：

writer = new IndexWriter(dir,

                               getIndexWriterConfig(getGramAnalyzer(), IndexWriterConfig.OpenMode.CREATE));

      BytesRef text;

      while ((text = iter.next()) != null) {

        BytesRef payload;

        if (iter.hasPayloads()) {

          payload = iter.payload();

        } else {

          payload = null;

        }

        add(text, iter.contexts(), iter.weight(), payload);

      }

FieldType中存在两种Analyzer，index和query，在fieldType中进行配置。type string和text的主要区别在于是否会进行analyze，string是不需要的，当做一整个单词，而text需要。

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">

      <analyzer type="index">

        <tokenizer class="solr.StandardTokenizerFactory"/>

        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

        <!-- in this example, we will only use synonyms at query time

        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>

        -->

        <filter class="solr.LowerCaseFilterFactory"/>

      </analyzer>

      <analyzer type="query">

        <tokenizer class="solr.StandardTokenizerFactory"/>

        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

        <filter class="solr.LowerCaseFilterFactory"/>

      </analyzer>

    </fieldType>

应用场景示例

假设我们有一张品牌关键字表，需要可以根据品牌的拼音搜索到对应的品牌名称，我们在solr中使用下面的db-data-import语句来进行导入操作：

 <entity name="gt_brand" query="

select brand_id, brand_name, brand_pinyin, brand_name_second, sort from gt_goods_brand

" >

        <field column="brand_id" name="id"/>

        <field column="brand_name" name="brand_name"/>

        <field column="brand_pinyin" name="brand_pinyin"/>

        <field column="brand_name_second" name="brand_name_second"/>

        <field column="sort" name="sort"/>

    </entity>

其中brand_pinyin作为关键词，sort作为权重（weight），brand_name为搜索后真正显示的文本

Directory indexDir = FSDirectory.open(Paths.get("/Users/xxx/develop/tools/solr-5.5.0/server/solr/suggest/data/index"));

        StandardAnalyzer analyzer = new StandardAnalyzer();

        AnalyzingInfixSuggester suggester = new AnalyzingInfixSuggester(indexDir, analyzer);

        DirectoryReader directoryReader = DirectoryReader.open(indexDir);

        DocumentDictionary documentDictionary = new DocumentDictionary(directoryReader, "brand_pinyin", "sort", "brand_name");

        suggester.build(documentDictionary.getEntryIterator());

        List<Lookup.LookupResult> cha = suggester.lookup("nijiazhubao", 5, false, false);

        for (Lookup.LookupResult lookupResult : cha) {

//            System.out.println(lookupResult.key);

//            System.out.println(lookupResult.value);

            System.out.println(new String(lookupResult.payload.bytes, "UTF8"));

        }

<str name="field">brand_pinyin</str>

      <str name="weightField">sort</str>

      <str name="payloadField">brand_name</str>

      <str name="suggestAnalyzerFieldType">string</str>

      <str name="buildOnStartup">true</str>

注意，处理的field一定需要有相应的analyzer(index, search)才能suggest出来：

如何使用两个字段来联想

http://eksliang.iteye.com/blog/2097924

视图去建立多个searchComponent，因为searchHandler可以包含多个searchComponent的名称，但并没有奏效：

<searchComponent name="suggest" class="solr.SuggestComponent">

    <lst name="suggester">

      <str name="name">default</str>

      <str name="lookupImpl">FuzzyLookupFactory</str>      <!-- org.apache.solr.spelling.suggest.fst -->

      <str name="dictionaryImpl">DocumentDictionaryFactory</str>     <!-- org.apache.solr.spelling.suggest.HighFrequencyDictionaryFactory -->

      <str name="field">category_name</str>

      <str name="weightField"></str>

      <str name="suggestAnalyzerFieldType">string</str>

    </lst>

  </searchComponent>

  <searchComponent name="suggest1" class="solr.SuggestComponent">

   <lst name="suggester">

      <str name="name">default</str>

      <str name="lookupImpl">FuzzyLookupFactory</str>      <!-- org.apache.solr.spelling.suggest.fst -->

      <str name="dictionaryImpl">DocumentDictionaryFactory</str>     <!-- org.apache.solr.spelling.suggest.HighFrequencyDictionaryFactory -->

      <str name="field">brand_name</str>

      <str name="weightField"></str>

      <str name="suggestAnalyzerFieldType">string</str>

    </lst>

  </searchComponent>

  <requestHandler name="/suggest" class="solr.SearchHandler" startup="lazy">

    <lst name="defaults">

      <str name="suggest">true</str>

      <str name="suggest.count">5</str>

    </lst>

    <arr name="components">

      <str>suggest</str>

      <str>suggest1</str>

    </arr>

  </requestHandler>

出现问题：

suggest: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: org.apache.lucene.store.LockObtainFailedException: Lock held by this virtual machine: /Users/xxx/develop/tools/solr-5.5.0/server/solr/suggest/data/analyzingInfixSuggesterIndexDir/write.lock

这其实也是indexPath导致的问题，当存在多个suggester配置的时候，需要将其索引对应的目录分开（至少使用AnalyzingInfixLookupFactory的时候是这样的，看源码可以设置为相对于core/data目录的相对路径：

String indexPath = params.get(INDEX_PATH) != null

    ? params.get(INDEX_PATH).toString()

    : DEFAULT_INDEX_PATH;

    if (new File(indexPath).isAbsolute() == false) {

      indexPath = core.getDataDir() + File.separator + indexPath;

    }

但我们加入<str name=“indexPath”>xxx</str>，虽然Exception已经消除，但是查询也没有起作用，只能采用另外的方案来处理，将多个字段copy至同一个字段，以便能够对单独的字段进行suggest提示，参考：http://stackoverflow.com/questions/7712606/solr-suggester-multiple-field-autocomplete

https://issues.apache.org/jira/browse/SOLR-5529，该ISSUE中也提供了解决方案，但是没有试验成功~

Solr Suggest组件的使用的更多相关文章

solr suggest智能提示配置
目录配置文件 Java代码遇到的问题回到顶部配置文件 solrconfig.xml <searchComponent name="suggest" class=&qu ...
Solr各组件之间的关系图
原文地址:http://blog.csdn.net/clj198606061111/article/details/20854419
solr的suggest模块
solr的suggest模块 solr有个suggest模块,用来实现下拉提醒功能,就是输入了一个文本之后,进行文本建议查找的功能. suggest请求的url http://localhost:89 ...
Solr 6.7学习笔记（04）-- Suggest
当我们使用baidu或者Google时,你输入很少的字符,就会自动跳出来一些建议选项,在Solr里,我们称之为Suggest,在solrconfig.xml里做一些简单的配置,即可实现这一功能.配置如 ...
转载：Solr的自动完成实现方式（第三部分：Suggester方式续）
转自:http://www.cnblogs.com/ibook360/archive/2011/11/30/2269126.html 在之前的两个部分(part1.part2)中,我们学会了如何配置和 ...
转载：Solr的自动完成实现方式（第二部分：Suggester方式）
转自:http://www.cnblogs.com/ibook360/archive/2011/11/30/2269077.html 在Solr的自动完成/自动补充实现介绍(第一部分) 中我介绍了怎么 ...
Solr4.3之检索建议suggest
原文链接:http://www.656463.com/article/Efm26v.htm 很多才学solr的人,都容易把solr spellcheck和solr suggest混淆,误以为他们是一样 ...
solr入门之solr的拼写检查功能的应用级别尝试
今天主要是收集了些拼写检查方面的资料和尝试使用一下拼写检查的功能--=遇到了不少问题拼写检查的四种配置眼下我仅仅算是成功了半个吧 --------------------------------- ...
Solr入门之（1）前言与概述
一.前言:为何选择Solr 由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有几种方案可供选择: 1. 基于Lucene自己进行封 ...

随机推荐

使用由 Intel MKL 支持的 R
我们通常使用的 R 版本是单线程的,即只使用一个 CPU 线程运行所有 R 代码.这样的好处是运行模型比较简单且安全,但是它并没有利用多核计算.Microsoft R Open(MRO,https:/ ...
H5 canvas控制坦克移动2
接着上一篇(http://www.cnblogs.com/zhouhuan/p/H5_tankgame2.html),这篇主要修复两个bug,第一,玩家按下方向键时,坦克的炮筒应该指向相应的方向,并向 ...
如何以Root权限在Pycharm上Run、Debug
Pycharm官网提问:https://intellij-support.jetbrains.com/hc/en-us/community/posts/206587695-How-to-run-deb ...
简单的spring mvc实例
简单的springmvc实例 pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=&qu ...
通过电信ADSL无线猫WLAN上网的方法
本教程只适合中国电信ADSL无线猫使用wifi(路由器不适合此帖)我的无线猫是电信赠送的华为[EchoLife]HG522c,亲测可用,解决网关无回应! 首先打开IE(注意,只能是IE,其他内核的浏览 ...
Rails 5 Test Prescriptions 第9章 Testing-JavaScript: Integration Testing，❌挂一个问题webpacker::helper
使用Capybara进行JS的集成测试谈论驱动让测试通过 Webpack in Development Mode Js设计是用户在网页上有好的体验的重要因素. 尽管如此,许多网页不测试JS. 部 ...
【转】ubuntu下修改文件夹权限
常用方法如下: sudo chmod 600 ××× (只有所有者有读和写的权限)sudo chmod 644 ××× (所有者有读和写的权限,组用户只有读的权限)sudo chmod 700 ××× ...
【转】 linux的网络接口之扫盲
[转] linux的网络接口之扫盲转自:http://blog.csdn.net/zhangxinrun/article/details/6820433 (1)网络接口的命名这里并不存在一定的命名 ...
js遍历json的key和value
遍历json对象: 无规律: <script> var json = [{dd:'SB',AA:'东东',re1:123},{cccc:'dd',lk:'1qw'}]; for(var i ...
二叉树的基本功能实现方法（C++）
假设:有一个n个元素的完全二叉树,为了使其成为满二叉树,补全没有孩子的节点是的除了叶节点所有节点都有两个孩子,即最低层皆为-1. 例1: 1 2 3 4 5 -1 6 -1 -1 -1 ...

Solr Suggest组件的使用

Solr Suggest组件的使用的更多相关文章

随机推荐

热门专题