https://www.cnblogs.com/weipeng/archive/2012/04/18/2455079.html   1.  多个MUST的组合不必多说,就是交集 2.  MUST和SHOULD的组合.是在MUST搜出来的doc里面,根据SHOULD的query进行打分.也就是说,SHOULD的query不会影响最终的HITS,只会提供打分依据. 3.  SHOULD的组合.如果最终的BooleanQuery只有SHOULD,那么搜出来的doc至少要满足一个SHOULD的query…
这几天一直在学习lucene,也写了3篇自己总结的知识点,本以为很容易上手的东西,但是却遇到了一个很棘手的问题,借此,希望可以跟大家探讨一下 问题:使用盘古高亮显示组件后,如搜索“mp3 player”,搜索词中间包含空格,但是搜出来的结果,经过高亮后,空格莫名其妙的没了,具体不知道是怎么回事,如果去掉高亮的话,搜出来的结果中就有空格 代码: ////用于搜索的代码 Lucene.Net.Store.FSDirectory dir = Lucene.Net.Store.FSDirectory.G…
转载自 http://blog.csdn.net/yja886/article/details/6612069 lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); Field有两个属性可选:存储和索引. 通过存储属性你可以控制是否对这个Field进行存储: 通过索引属性你可以控制是否对该Field进行索引. 事实上对这两个属性的正确组合很重要. Fi…
BooleanQuery对两种不同查询场景执行不同的算法: 场景1: 所有的子句都必须满足,而且所有的子句里没有嵌套BooleanQuery. 例: a AND b AND c 上面语句表示要同时包含a,b,c三个字符(词元)的文档,假如现在索引里包含a的文档有4,6,8:b的文档有:2,4,6:c的文档有:3,4,5,这个语句就是找出编号为4的这个文档. 注:在倒排索引里存储的包含某个词元的文档列表都是从小到大排列的. 初始状态如下: a b c -> 4 -> 2 -> 3 6 4…
几个注意事项1.建立索引时 插入的顺序(不设置document和字段的boost) 会影响到 查询结果的默认排序,建议:将最新生成的文章 最后建索引 这样 查询结果首先显示的是 最后插入的数据2.BooleanQuery的多条件查询 一定是多个 must的组合,否则就不是 and关系了,如下代码:3.查询时候亦可对 结果进行权重排序,通过设置Query的Boost属性即可,如下述代码所示4.查询时,通常首先对关键词进行分词处理之后,再设置为多个分词的 查询条件,如下代码这一部分 foreach…
1.针对多个域的一次性查询 1.1.三种方案     使用lucene构造搜索引擎的时候,如果要针对多个域进行一次性查询,一般来说有三种方法:     第一种实现方法是创建多值的全包含域的文本进行索引,这个方案最简单.但是这个防范有个缺点:你不能直接对每个域的加权进行控制.     第二种方法是使用MultiFieldQueryParser,它是QueryParser的子类,它会在后台程序中实例化一个QueryParser对象,用来针对每个域进行查询表达式的解析,然后使用BooleanQuery…
我们在搜索中可能会遇到要搜索索引文件中不同字段,不同字段之间就存在了与或非的运算关系,如:这个xx字段中必须存在什么什么关键词,而另一个 XXX字段可以存在或不存在什么什么关键词等等等.这就需要有BooleanQuery这个得到一个组合检索对象,进行组合检索了. BooleanClause是在一个BooleanQuery中子句.该类中定义了一个静态最终内部类Occur定义了BooleanQuery的运算符: public static final Occur MUST = new Occur("…
Lucene教程 1 lucene简介1.1 什么是lucene    Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品.2 lucene的工作方式    lucene提供的服务实际包含两部分:一入一出.所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除:所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源.2.1写入流程    源字符…
在上一篇中,我们初步理解了索引的增删改查基本操作.本文着重介绍一下常用的搜索,以及搜索结果的排序和分页.本文的搜索主要是基于前一篇介绍的文本文件的索引,建议下载最后改进的demo对照着看阅读本文,同时大家可以自己动手创建一些测试文本,然后建立索引并搜索试试看. 一.初步认识搜索 先从上一篇示例代码中我们摘录一段代码看看搜索的简单实现: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 private TopDocs Searc…
//封装类 using System;using System.Collections.Generic;using System.Linq;using System.Web;using Lucene.Net.Analysis;using Lucene.Net.Index;using Lucene.Net.Documents;using System.Reflection;using Lucene.Net.QueryParsers;using Lucene.Net.Search;namespace…
1 lucene简介 1.1 什么是lucene     Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 2 lucene的工作方式     lucene提供的服务实际包含两部分:一入一出.所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除:所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源. 2.1写入流程     源字符串首先…
转自:summerbell http://www.iteye.com/topic/569358 1.多字段搜索 使用 multifieldqueryparser 可以指定多个搜索字段. query query = multifieldqueryparser.parse(”name*”, new string[] { fieldname, fieldvalue }, analyzer); indexreader reader = indexreader.open(directory); index…
使用Lucene.Net实现全文检索 目录 一 Lucene.Net概述 二 分词 三 索引 四 搜索 五 实践中的问题 一 Lucene.Net概述 Lucene.Net是一个C#开发的开源全文索引库,其源码包括“核心”与“外围”两部分.外围部分实现辅助功能,而核心部分包括: Lucene.Net.Index 提供索引管理,词组排序. Lucene.Net.Search 提供查询相关功能. Lucene.Net.Store 支持数据存储管理,主要包括I/O操作. Lucene.Net.Util…
  转自:http://blog.csdn.net/pukuimin1226/article/details/17558247 添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段. 最新盘古分词dll和词典管理工具下载:http://pangusegment.codeplex.com/ 词典下载:http://pangusegment.codeplex.com/releases/view/47411…
lucene.lucene.NET详细使用与优化详解 2010-02-01 13:51:11 分类: Linux 1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么要 回答这个问题,先要了解lucene的本质.实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜…
Lucene教程 1 lucene简介1.1 什么是lucene    Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品.2 lucene的工作方式    lucene提供的服务实际包含两部分:一入一出.所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除:所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源.2.1写入流程    源字符…
(建立索引)] )中生成的索引文件的存放地址.详细步骤简单介绍例如以下: 1.创建Directory对象,索引目录 2.创建IndexSearch对象,建立查询(參数是Directory对象) 3.创建QueryParser对象(lucene版本号,查询Field字段,所用分词器) 4.生成Query对象,由QueryParser对象的parse函数生成(參数是所查的keyword) 5.建立TopDocs对象(IndexSearch的search函数,參数是Query查询对象,) 6.TopD…
刚才在写创建索引和搜索类的时候发现非常多类的概念还不是非常清楚,这里我总结了一下. 1 lucene简单介绍  1.1 什么是lucene  Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它仅仅是提供了一种工具让你能实现这些产品.  1.2 lucene能做什么  要回答这个问题,先要了解lucene的本质.实际上lucene的功能非常单一.说究竟,就是你给它若干个字符串.然后它为你提供一个全文搜索服务,告…
Lucene教程 1 lucene简介 1.1 什么是lucene     Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 2 lucene的工作方式     lucene提供的服务实际包含两部分:一入一出.所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除:所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源. 2.1写入流程  …
Lucene是apache组织的一个用java实现全文搜索引擎的开源项目. 其功能非常的强大,api也很简单.总得来说用Lucene来进行建立 和搜索和操作数据库是差不多的(有点像),Document可以看作是 数据库的一行记录,Field可以看作是数据库的字段.用lucene实 现搜索引擎就像用JDBC实现连接数据库一样简单. Lucene2.0,它与以前广泛应用和介绍的Lucene 1.4.3并不兼容. Lucene2.0的下载地址是http://apache.justdn.org/luce…
最近在学习Lucene的过程中遇到了需要多域搜索并排序的问题,在网上找了找,资料不是很多,现在都列出来,又需要的可以自己认真看看,都是从其他网站粘贴过来的,所以比较乱,感谢原创的作者们!     使用MultiFieldQueryParser类即可. 示例代码: package com.lucene.search; import java.io.File; import java.io.IOException; 54com.cn import org.apache.lucene.analysis…
原文转自:http://cloudera.iteye.com/blog/656459 1 lucene简介  1.1 什么是lucene  Lucene是一个全文搜索框架,而不是应用产品.因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么  要回答这个问题,先要了解lucene的本质.实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索…
lucene.net 3.0.3.结合盘古分词进行搜索的小例子(分页功能)   添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段. //封装类 using System; using System.Collections.Generic; using System.Linq; using System.Web; using Lucene.Net.Analysis; using Lucene.Net…
一.Lucene的查询语法 Lucene所支持的查询语法可见http://lucene.apache.org/java/3_0_1/queryparsersyntax.html (1) 语法关键字 + - && || ! ( ) { } [ ] ^ " ~ * ? : / 如果所要查询的查询词中本身包含关键字,则需要用/进行转义 (2) 查询词(Term) Lucene支持两种查询词,一种是单一查询词,如"hello",一种是词组(phrase),如"…
一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: IndexReader打开索引文件,读取并打开指向索引文件的流. 用户输入查询语句 将查询语句转换为查询对象Query对象树 构造Weight对象树,用于计算词的权重Term Weight,也即计算打分公式中与仅与搜索语句相关与文档无关的部分(红色部分). 构造Scorer对象树,用于计算打分(T…
上一篇:Lucene基础(1) 一.Lucene术语 Document, Field, Term, Query, Analyzer相信在其中大多数在之前已经理解了...对其中部分概念详细说明 Document是一个包含了多个Field的容器,通过以下代码应该容易理解二者的关系 Document document=new Document(); //Field.Store.YES或者NO(存储域选项) //设置为YES表示或把这个域中的内容完全存储到文件中,方便进行文本的还原 //设置为NO表示把…
http://blog.csdn.net/tianlincao/article/details/6867127 Lucene教程 1 lucene简介 1.1 什么是lucene     Lucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 2 lucene的工作方式     lucene提供的服务实际包含两部分:一入一出.所谓入是写入,即将你提供的源(本质是字符串)写入索…
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品.因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么要 回答这个问题,先要了解lucene的本质.实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你 你要搜索的关键词出现在哪里.知道了这个本质,你就可以发挥想象做任何符合这个条件的事情了.你可以把站…
前言 一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客的搜索功能.先来看一下最终效果: 本文demo地址:https://github.com/liuxianan/lucene-demo (包括本文需要用到的jar包可以从这里面下载) 效果演示地址:http://blog.liuxianan.com/search?kw=%E7%AB%AF%E5%8F%…
这里我的的Demo的逻辑是这样的:首先我基本的数据是储存在Sql数据库中,然后我把我的必需的数据推送到MongoDB中,这样再去利用Lucene.net+盘古创建索引:其中为什么要这样把数据推送到MongoDb中,我的理解是可以从Sql中直接取出来必需的数据,首次推送可能是要推送所有的数据,直接创建索引,但是在第二次推送的时候,可能存在要修改或者新增的数据,这样我们就需要一个中间表,而这个中间表我们是使用的MongoDB文件型存储来处理啦,而没在sql数据库中在建立一张表,我是这么理解的...大…