【搜索引擎】Solr全文检索近实时查询优化
设置多个搜索建议查找算法
<searchComponent name="suggest" class="solr.SuggestComponent">
<lst name="suggester">
<str name="name">AnalyzingSuggester</str>
<str name="lookupImpl">AnalyzingLookupFactory</str>
<str name="dictionaryImpl">DocumentDictionaryFactory</str>
<str name="field">suggest_name</str>
<str name="weightField">suggest_name</str>
<str name="payloadField">gid</str>
<str name="suggestAnalyzerFieldType">text_suggest</str>
<str name="buildOnStartup">false</str>
<str name="buildOnCommit">true</str>
</lst>
<lst name="suggester">
<str name="name">AnalyzingInfixSuggester</str>
<str name="lookupImpl">AnalyzingInfixLookupFactory</str>
<str name="dictionaryImpl">DocumentDictionaryFactory</str>
<str name="field">suggest_name</str>
<str name="weightField">suggest_name</str>
<str name="highlight">false</str>
<str name="payloadField">gid</str>
<str name="suggestAnalyzerFieldType">text_suggest</str>
<str name="buildOnStartup">false</str>
<str name="buildOnCommit">true</str>
</lst>
</searchComponent>
- 设置AnalyzingLookupFactory和AnalyzingInfixLookupFactory两种查找算法。首先通过AnalyzingLookupFactory先分析传入文本并将分析后的表单添加到加权FST的查找,然后在查找时执行相同的操作,若查找不够你需求的数量。再通过AnalyzingInfixLookupFactory前缀分析。
- 例如 AnalyzingInfixLookupFactory "aaa bbb ccc",可通过bbb,或者ccc搜索到,而 AnalyzingLookupFactory必须是先从a开始匹配才能出结果。
- AnalyzingInfixLookupFactory可通过标签false关闭高亮提示。
- true可通过此标签设置软提交时才进行文本构建。注意此种需求需要在提交文本不频繁的场景设置。
设置软提交时间
- 配置在自己core下的conf文件夹中的solrconfig.xml文件
vim solrconfig.xml
<autoSoftCommit>
<maxTime>${solr.autoSoftCommit.maxTime:-1}</maxTime>
</autoSoftCommit>
将maxTime可以设置成你需要的时间,单位是毫秒ms.
- 也可以在solr启动的时候通过命令设置软提交:
bin/solr start -force -Dsolr.autoSoftCommit.maxTime=10000
设置了软提交时间后,当有新的文档提交时,会达到设置的软提交时间才真正提交。
关闭停用词过滤器
在建立索引的时候,fileType定义的字段可不加入停用词过滤器,因为我们要检索的词很短,加入会影响检索结果。
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
Java服务器调用suggest接口时,禁用suggest.build=true
加入suggest.build=true这个条件,每输入一个字符检索的时候都会去重新构建suggest索引,检索效率大大减低。通过上面的软提交方式达到近实时检索。
Java服务器测试用例
/**
* @author monkjavaer
* @version V1.0
* @date 2019/6/21 0021 22:42
*/
public class SolJTest {
/**
* 日志
*/
private static Logger logger = LoggerFactory.getLogger(SolJTest.class);
/**
* solr 地址
*/
private static String SOLR_URL = PropertyReaderUtils.getProValue("solr.address_url");
/**
* suggest AnalyzingLookupFactory
*/
public final static String SOLR_ANALYZINGSUGGESTER = PropertyReaderUtils.getProValue("solr.AnalyzingSuggester");
/**
* suggest AnalyzingInfixLookupFactory
*/
public final static String SOLR_ANALYZINGINFIXSUGGESTER = PropertyReaderUtils.getProValue("solr.AnalyzingInfixSuggester");
/**
* HttpSolrClient
*/
private HttpSolrClient httpSolrClient;
/**
* default socket connection timeout in ms
*/
private static int DEFAULT_CONNECTION_TIMEOUT = 60000;
/**
* @return void
* @author monkjavaer
* @description get HttpSolrClient
* @date 13:27 2019/6/19
* @param: []
**/
@Before
public void getHttpSolrClient() {
logger.info("start getHttpSolrClient......");
try {
if (httpSolrClient == null) {
httpSolrClient = new HttpSolrClient.Builder(SOLR_URL).build();
httpSolrClient.setConnectionTimeout(DEFAULT_CONNECTION_TIMEOUT);
httpSolrClient.setDefaultMaxConnectionsPerHost(100);
httpSolrClient.setMaxTotalConnections(100);
}
} catch (Exception e) {
e.printStackTrace();
logger.error(e.getMessage());
}
logger.info("end getHttpSolrClient......");
}
/**
* @return void
* @author monkjavaer
* @description test suggester response object
* @date 13:27 2019/6/19
* @param: []
**/
@Test
public void testSuggesterResponseObject() throws IOException, SolrServerException {
SolrQuery query = new SolrQuery("*:*");
query.set(CommonParams.QT, "/suggest");
query.set("suggest.dictionary", SOLR_ANALYZINGSUGGESTER, SOLR_ANALYZINGINFIXSUGGESTER);
query.set("suggest.q", "aoa");
query.set("suggest.build", true);
QueryRequest request = new QueryRequest(query);
QueryResponse queryResponse = request.process(httpSolrClient);
SuggesterResponse response = queryResponse.getSuggesterResponse();
Map<String, List<Suggestion>> suggestionsMap = response.getSuggestions();
assertTrue(suggestionsMap.keySet().contains(SOLR_ANALYZINGSUGGESTER));
List<Suggestion> mySuggester = suggestionsMap.get(SOLR_ANALYZINGSUGGESTER);
logger.info(mySuggester.get(0).getTerm());
logger.info(mySuggester.get(0).getPayload());
}
/**
* @return void
* @author monkjavaer
* @description test suggester response terms
* @date 13:27 2019/6/19
* @param: []
**/
@Test
public void testSuggesterResponseTerms() throws Exception {
SolrQuery query = new SolrQuery("*:*");
query.set(CommonParams.QT, "/suggest");
query.set("suggest.dictionary", SOLR_ANALYZINGSUGGESTER, SOLR_ANALYZINGINFIXSUGGESTER);
query.set("suggest.q", "aoa");
// query.set("suggest.build", true);
QueryRequest request = new QueryRequest(query);
QueryResponse queryResponse = request.process(httpSolrClient);
SuggesterResponse response = queryResponse.getSuggesterResponse();
Map<String, List<String>> dictionary2suggestions = response.getSuggestedTerms();
assertTrue(dictionary2suggestions.keySet().contains(SOLR_ANALYZINGSUGGESTER));
List<String> mySuggester = dictionary2suggestions.get(SOLR_ANALYZINGSUGGESTER);
assertEquals("aoa", mySuggester.get(0));
assertEquals("aoa bob", mySuggester.get(1));
}
/**
* @return void
* @author monkjavaer
* @description 简单查询自动转换为bean
* @date 13:27 2019/6/19
* @param: []
**/
@Test
public void testSolrQueryGetBeans() throws IOException, SolrServerException {
final SolrQuery query = new SolrQuery();
query.setQuery("Zhong Hua Yuan");
//设置查询列
query.addField("id");
query.addField("name");
//排序
query.setSort("id", SolrQuery.ORDER.asc);
final QueryResponse response = httpSolrClient.query("adress", query);
final List<Adress> adresses = response.getBeans(Adress.class);
logger.info("Found " + adresses.size() + " documents");
for (Adress adress : adresses) {
logger.info("id:{} ; name:{}; ", adress.getId(), adress.getName());
}
}
/**
* @return void
* @author monkjavaer
* @description 批量添加
* @date 13:27 2019/6/19
* @param: []
**/
@Test
public void testAddIndex() throws IOException, SolrServerException {
List<Adress> lists = new ArrayList<>();
Adress adress = new Adress();
adress.setId(1);
adress.setName("aoa");
lists.add(adress);
//向solr批量添加索引数据
long startTime = TimeUnit.MILLISECONDS.convert(System.nanoTime(), TimeUnit.NANOSECONDS);
httpSolrClient.addBeans(lists);
httpSolrClient.commit();
long endTime = TimeUnit.MILLISECONDS.convert(System.nanoTime(), TimeUnit.NANOSECONDS);
logger.info("commit solr data cost {} ms.", endTime - startTime);
}
}
【搜索引擎】Solr全文检索近实时查询优化的更多相关文章
- solr 近实时搜索
摘要: Solr的近实时搜索NRT(Near Real Time Searching)意味着文档可以在索引以后马上可以被查询到. Solr不会因为本次提交而阻塞更新操作,不会等待后台合并操作(merg ...
- SOLR (全文检索)
SOLR (全文检索) http://sinykk.iteye.com/ 1. 什么是SOLR 官方网站 http://wiki.apache.org/solr http://wiki.apach ...
- sphinx通过增量索引实现近实时更新
一.sphinx增量索引实现近实时更新设置 数据库中的已有数据很大,又不断有新数据加入到数据库中,也希望能够检索到.全部重新建立索引很消耗资源,因为我们需要更新的数据相比较而言很少. 例如.原来的数据 ...
- 剖析Elasticsearch集群系列之三:近实时搜索、深层分页问题和搜索相关性权衡之道
转载:http://www.infoq.com/cn/articles/anatomy-of-an-elasticsearch-cluster-part03 近实时搜索 虽然Elasticsearch ...
- 一步一步跟我学习lucene(19)---lucene增量更新和NRT(near-real-time)Query近实时查询
这两天加班,不能兼顾博客的更新.请大家见谅. 有时候我们创建完索引之后,数据源可能有更新的内容.而我们又想像数据库那样能直接体如今查询中.这里就是我们所说的增量索引.对于这种需求我们怎么来实现呢?lu ...
- Lucene.net 实现近实时搜索(NRT)和增量索引
Lucene做站内搜索的时候经常会遇到实时搜索的应用场景,比如用户搜索的功能.实现实时搜索,最普通的做法是,添加新的document之后,调用 IndexWriter 的 Commit 方法把内存中的 ...
- Lucene系列-近实时搜索(1)
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大.更新较频繁的情况下使用.本文主要来介绍下如何 ...
- lucene4.5近实时搜索
近实时搜索就是他能打开一个IndexWriter快速搜索索引变更的内容,而不必关闭writer,或者向writer提交,这个功能是在2.9版本以后引入的,在以前没有这个功能时,必须调用writer的c ...
- 【Lucene】近实时搜索
近实时搜索:可以使用一个打开的IndexWriter快速搜索索引的变更内容,而不必首先关闭writer,或者向该writer提交:这是2.9版本之后推出的新功能. 代码示例(本例参考<Lucen ...
随机推荐
- Delphi绘图相关对象(TCanvas对象的方法)
TCanvas对象的方法 方法 说明 Arc Arc(x1,y1,x2,y2,x3,y3,x4,y4 : Integer); Arc方法在椭圆上画一段弧,椭圆由(x1,y1).(x2,y2) 两点所确 ...
- LaTeX —— 特殊符号与数学字体
1. 特殊符号 ℓ(\ell):用于和大小的 I 和 数字 1 相区分 R(\Re) ∇(\nabla):微分算子 2. 数学字体 mathbb:blackboard bold,黑板粗体 mathca ...
- QT之圆形头像(使用PNG的Mask达到的效果)
废话不多说!直接上代码. 我们在很多UI设计应用中,需要用到自定义形状头像,在这里,我对圆形头像的设计做简单的阐述,其它形状头像可参考本文做相应的更改即可.如下图所示为设计的圆形头像: 上代码: Se ...
- Android官方教程翻译(3)——创建一个简单的用户界面
转载请注明出处:http://blog.csdn.net/dawanganban/article/details/9839523 Building a Simple User Interface 创建 ...
- centos下载安装mysql,并设置远程访问
思路 获取安装文件→配置好路径→安装→设置权限→处理常见的问题. 1.下载 先建议去官网看看https://dev.mysql.com/,然后根据自己的常识找到下载路径.同时也找到最新版本. 下载方式 ...
- python爬虫 BeautifulSoup
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据. Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码. Bea ...
- OpenCV实现马赛克和毛玻璃滤镜效果
一.马赛克效果 马赛克的实现原理是把图像上某个像素点一定范围邻域内的所有点用邻域内随机选取的一个像素点的颜色代替,这样可以模糊细节,但是可以保留大体的轮廓. 以下OpenCV程序实现马赛克效果,通过鼠 ...
- WPF C#之读取并修改App.config文件
原文:WPF C#之读取并修改App.config文件 简单介绍App.config App.config文件一般是存放数据库连接字符串的. 下面来简单介绍一下App.config文件的修改和更新. ...
- C++ 异常机制分析(C++标准库定义了12种异常,很多大公司的C++编码规范也是明确禁止使用异常的,如google、Qt)
阅读目录 C++异常机制概述 throw 关键字 异常对象 catch 关键字 栈展开.RAII 异常机制与构造函数 异常机制与析构函数 noexcept修饰符与noexcept操作符 异常处理的性能 ...
- Emgu-WPF 激光雷达研究-定位实现
原文:Emgu-WPF 激光雷达研究-定位实现 特定位置或障碍物位置定位实现. 读取激光雷达数据并存储于本地作为测试数据.每一帧数据对同一障碍物的定位信息均存在偏差.所以先对需要定位的点进行数据取样. ...