1. 课程计划

  1. Lucene的Field
  2. Lucene的索引库维护
  3. lucene的查询

    a) Query子对象

    b) QueryParser

  4.Lucene相关度排序(了解)

2. Field域

2.1. Field属性

Field是文档中的域,包括Field名和Field值两部分,一个文档可以包括多个Field,Document只是Field的一个承载体,Field值即为要索引的内容,也是要搜索的内容。

1.是否分词(tokenized)

是:作分词处理,即将Field值进行分词,分词的目的是为了索引。

比如:商品名称、商品描述等,这些内容用户要输入关键字搜索,由于搜索的内容格式大、内容多需要分词后将语汇单元建立索引

否:不作分词处理

比如:商品id、订单号、身份证号等

2. 是否索引(indexed)

是:进行索引。将Field分词后的词或整个Field值进行索引,存储到索引域,索引的目的是为了搜索。

比如:商品名称、商品描述分析后进行索引,订单号、身份证号不用分词但也要索引,这些将来都要作为查询条件。

否:不索引。

比如:图片路径、文件路径等,不用作为查询条件的不用索引。

3.是否存储(stored)

是:将Field值存储在文档域中,存储在文档域中的Field才可以从Document中获取。

比如:商品名称、订单号,凡是将来要从Document中获取的Field都要存储。

否:不存储Field值

比如:商品描述,内容较大不用存储。如果要向用户展示商品描述可以从系统的关系数据库中获取。

2.2. Field常用类型

下边列出了开发中常用 的Filed类型,注意Field的属性,根据需求选择:

Field类

数据类型

Analyzed

是否分词

Indexed

是否索引

Stored

是否存储

说明

StringField(FieldName, FieldValue,Store.YES))

字符串

N

Y

Y或N

这个Field用来构建一个字符串Field,但是不会进行分词,会将整个串存储在索引中,比如(订单号,身份证号等)

是否存储在文档中用Store.YES或Store.NO决定

LongField(FieldName, FieldValue,Store.YES)

Long型

Y

Y

Y或N

这个Field用来构建一个Long数字型Field,进行分词和索引,比如(价格)FloatField

是否存储在文档中用Store.YES或Store.NO决定

StoredField(FieldName, FieldValue)

重载方法,支持多种类型

N

N

Y

这个Field用来构建不同类型Field

不分析,不索引,但要Field存储在文档中 链接

TextField(FieldName, FieldValue, Store.NO)

TextField(FieldName, reader)

字符串

Y

Y

Y或N

如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.

2.3. Field修改

2.3.1. 修改分析

图书id:StringField

是否分词:不用分词,因为不会根据商品id来搜索商品

是否索引:不索引,因为不需要根据图书ID进行搜索

是否存储:要存储,因为查询结果页面需要使用id这个值。

图书名称:TextField

是否分词:要分词,因为要根据图书名称的关键词搜索。

是否索引:要索引。

是否存储:要存储。

图书价格:

是否分词:要分词,lucene对数字型的值只要有搜索需求的都要分词和索引,因    为lucene对数字型的内容要特殊分词处理,需要分词和索引。

是否索引:要索引

是否存储:要存储

图书图片地址:

是否分词:不分词

是否索引:不索引

是否存储:要存储

图书描述:

是否分词:要分词

是否索引:要索引

是否存储:因为图书描述内容量大,不在查询结果页面直接显示,不存储。

不存储是不在lucene的索引域中记录,节省lucene的索引文件空间。

如果要在详情页面显示描述,解决方案:

从lucene中取出图书的id,根据图书的id查询关系数据库(MySQL)中book表得到描述信息。

2.3.2. 代码修改

对之前编写的testCreateIndex()方法进行修改。

代码片段

 // Document文档中添加域

 // 图书Id

 // Store.YES:表示存储到文档域中

 // 不分词,不索引,储存

 document.add(new StoredField("id", book.getId().toString()));

 // 图书名称

 // 分词,索引,储存

 document.add(new TextField("name", book.getName().toString(), Store.YES));

 // 图书价格

 // 分词,索引,储存

 document.add(new FloatField("price", book.getPrice(), Store.YES));

 // 图书图片地址

 // 不分词,不索引,储存

 document.add(new StoredField("pic", book.getPic().toString()));

 // 图书描述

 // 分词,索引,不储存

 document.add(new TextField("desc", book.getDesc().toString(), Store.NO));

3. 索引维护

3.1. 需求

管理人员通过电商系统更改图书信息,这时更新的是关系数据库,如果使用lucene搜索图书信息,需要在数据库表book信息变化时及时更新lucene索引库。

3.2. 添加索引

调用 indexWriter.addDocument(doc)添加索引。

参考入门程序的创建索引。

3.3. 删除索引

3.3.1. 删除指定索引

根据Term项删除索引,满足条件的将全部删除。

 /**
*@author 作者: WangXS
*@version 日期: 2018年10月9日 下午4:29:05
*
* 索引维护 --删除索引
*删除指定索引
*删除全部索引
*/
public class DeleteIndexTest {
//获取IndexWriter写入对象
public IndexWriter getIndexWriter() throws IOException {
//3.创建分析器(分词器)支持中文
IKAnalyzer analyzer = new IKAnalyzer();
//4.创建IndexWriterConfig配置信息类
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
//5.创建Directory对象,声明索引库存储位置
Directory directory = FSDirectory.open(new File("F:\\temp\\index"));
//6.创建IndexWriter写入对象
IndexWriter indexWriter = new IndexWriter(directory, config);
return indexWriter;
} @Test
public void testDeleteIndex() throws Exception {
// 获取写入对象
IndexWriter indexWriter = getIndexWriter();
//小心被祭天~
//删除全部索引
//indexWriter.deleteAll();
//删除指定索引
Query query = new TermQuery(new Term("name", "apache"));
//indexWriter.deleteDocuments(new Term("name", "apache"));
//释放资源
indexWriter.close();
}
}

3.3.2. 删除全部索引(慎用)

将索引目录的索引信息全部删除,直接彻底删除,无法恢复。

建议参照关系数据库基于主键删除方式,所以在创建索引时需要创建一个主键Field,删除时根据此主键Field删除。

索引删除后将放在Lucene的回收站中,Lucene3.X版本可以恢复删除的文档,3.X之后无法恢复。

3.4. 修改索引

更新索引是先删除再添加,建议对更新需求采用此方法并且要保证对已存在的索引执行更新,可以先查询出来,确定更新记录存在执行更新操作。

如果更新索引的目标文档对象不存在,则执行添加。

代码

 /**
*@author 作者: WangXS
*@version 日期: 2018年10月9日 下午4:29:05
*索引维护 --更新索引
*/
public class UpdateIndexTest {
@Test
public void testUpdateIndex() throws Exception {
//创建文档对象
Document document = new Document();
// Document文档中添加Field域
// 图书Id
// Store.YES:表示存储到文档域中
// 不分词,不索引,储存
document.add(new StoredField("ID", "007"));
// 图书名称
// 分词,索引,储存
document.add(new TextField("NAME", "大内密探", Store.YES));
// 图书描述
// 分词,索引,不储存
document.add(new TextField("desc", "零零八.........", Store.NO));
//3.创建分析器(分词器)
//StandardAnalyzer standardAnalyzer = new StandardAnalyzer();
IKAnalyzer analyzer = new IKAnalyzer();
//4.创建IndexWriterConfig配置信息类
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
//5.创建Directory对象,声明索引库存储位置
Directory directory = FSDirectory.open(new File("F:\\temp\\index"));
//6.创建IndexWriter写入对象
IndexWriter indexWriter = new IndexWriter(directory, config);
//7.把Document写入到索引库中
indexWriter.updateDocument(new Term("name","apache"), document);
//8.释放资源
indexWriter.close(); }
}

4. 搜索

4.1. 创建查询的两种方法

对要搜索的信息创建Query查询对象,Lucene会根据Query查询对象生成最终的查询语法。类似关系数据库Sql语法一样,Lucene也有自己的查询语法,比如:“name:lucene”表示查询名字为name的Field域中的“lucene”的文档信息。

可通过两种方法创建查询对象:

1)使用Lucene提供Query子类

Query是一个抽象类,lucene提供了很多查询对象,比如TermQuery项精确查询,NumericRangeQuery数字范围查询等。

如下代码:

Query query = new TermQuery(new Term("name", "lucene"));

2)使用QueryParse解析查询表达式

QueryParser会将用户输入的查询表达式解析成Query对象实例。

如下代码:

QueryParser queryParser = new QueryParser("name", new IKAnalyzer());

Query query = queryParser.parse("name:lucene");

4.2. 通过Query子类搜索

4.2.1. TermQuery

TermQuery词项查询,TermQuery不使用分析器,搜索关键词进行精确匹配Field域中的词,比如订单号、分类ID号等。 Where name =思念Spring

搜索对象创建:

 public class QueryIndexTest {
//获取IndexWriter写入对象
public IndexSearcher getIndexSearcher() throws IOException {
//2. 创建Directory流对象,声明索引库位置
Directory directory = FSDirectory.open(new File("F:\\temp\\index"));
//3. 创建索引读取对象IndexReader
IndexReader indexReader = DirectoryReader.open(directory);
//4. 创建索引搜索对象IndexSearcher
IndexSearcher search = new IndexSearcher(indexReader);
return search;
}
@Test
public void testSearchIndex() throws Exception {
//1. 创建Query搜索对象
// 创建搜索解析器,第一个参数:默认Field域,第二个参数:分词器
IndexSearcher searcher = getIndexSearcher();
Query query = new TermQuery(new Term("name","java"));
//5. 使用索引搜索对象,执行搜索,返回结果集TopDocs
// 第一个参数:搜索对象,第二个参数:返回的数据条数,指定查询结果最顶部的n条数据返回
printResult(searcher, query);
}
//打印结果
public void printResult(IndexSearcher searcher, Query query) throws IOException {
TopDocs topDocs = searcher.search(query, 5);
System.out.println("查询到的数据总条数是:" + topDocs.totalHits);
//6. 解析结果集
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (ScoreDoc scoreDoc : scoreDocs) {
//获取文档
int docId = scoreDoc.doc;
Document doc = searcher.doc(docId);
System.out.println("=============================");
System.out.println("docID:" + docId);
System.out.println("bookId:" + doc.get("id"));
System.out.println("name:" + doc.get("name"));
System.out.println("price:" + doc.get("price"));
System.out.println("pic:" + doc.get("pic"));
// System.out.println("desc:" + doc.get("desc"));
}
//7. 释放资源
searcher.getIndexReader().close();
}
}

4.2.2. NumericRangeQuery

NumericRangeQuery,指定数字范围查询.

 @Test

 public void testSearchNumericRangeQuery() throws Exception {

 // 创建NumericRangeQuery搜索对象,数字范围查询.

 // 五个参数分别是:域名、最小值、最大值、是否包含最小值,是否包含最大值

 Query query = NumericRangeQuery.newFloatRange("price", 54f, 56f, false, true);

 doSearch(query);

 }

4.2.3. BooleanQuery

BooleanQuery,布尔查询,实现组合条件查询。

 //BooleanQuery,布尔查询,实现组合条件查询。
@Test
public void testBooleanQuery() throws Exception {
//1. 创建Query搜索对象
// 创建搜索解析器,第一个参数:默认Field域,第二个参数:分词器
IndexSearcher searcher = getIndexSearcher();
Query query1 = NumericRangeQuery.newFloatRange("price", 70f, 80f, true, true);
Query query2 = new TermQuery(new Term("name","java"));
BooleanQuery query = new BooleanQuery();
query.add(query1, BooleanClause.Occur.MUST);
query.add(query2, BooleanClause.Occur.MUST);
//5. 使用索引搜索对象,执行搜索,返回结果集TopDocs
// 第一个参数:搜索对象,第二个参数:返回的数据条数,指定查询结果最顶部的n条数据返回
printResult(searcher, query);
}

组合关系代表的意思如下:

1、MUST和MUST表示“与”的关系,即“交集”。

2、MUST和MUST_NOT前者包含后者不包含。

3、MUST_NOT和MUST_NOT没意义

4、SHOULD与MUST表示MUST,SHOULD失去意义;

5、SHOULD与MUST_NOT相当于MUST与MUST_NOT。

6、SHOULD与SHOULD表示“或”的关系,即“并集”。

4.3. 通过QueryParser搜索

通过QueryParser也可以创建Query,QueryParser提供一个Parse方法,此方法可以直接根据查询语法来查询。可以通过打印Query对象的方式,查看生成的查询语句。

4.3.1. 查询语法

1、基础的查询语法,关键词查询:

域名+“:”+搜索的关键字

例如:name:java

2、范围查询

域名+“:”+[最小值 TO 最大值]

例如:size:[1 TO 1000]

注意:QueryParser不支持对数字范围的搜索,它支持字符串范围。数字范围搜索建议使用NumericRangeQuery。

3、组合条件查询

Occur.MUST 查询条件必须满足,相当于AND

+(加号)

Occur.SHOULD 查询条件可选,相当于OR

空(不用符号)

Occur.MUST_NOT 查询条件不能满足,相当于NOT非

-(减号)

4.3.2. QueryParser

 @Test

 public void testSearchIndex() throws Exception {

 // 创建分词器

 Analyzer analyzer = new StandardAnalyzer();

 // 1. 创建Query搜索对象

 // 创建搜索解析器,第一个参数:默认Field域,第二个参数:分词器

 QueryParser queryParser = new QueryParser("desc", analyzer);

 // 创建搜索对象

 // Query query = queryParser.parse("desc:java学习");

 Query query = queryParser.parse("desc:java AND lucene");

 // 打印生成的搜索语句

 System.out.println(query);

 // 执行搜索

 doSearch(query);

 }

4.3.3. MultiFieldQueryParser

通过MultiFieldQueryParse对多个域查询。

 @Test

 public void testSearchMultiFieldQueryParser() throws Exception {

 // 创建分词器

 Analyzer analyzer = new IKAnalyzer();

 // 1. 创建MultiFieldQueryParser搜索对象

 String[] fields = { "name", "desc" };

 MultiFieldQueryParser multiFieldQueryParser = new MultiFieldQueryParser(fields, analyzer);

 // 创建搜索对象

 Query query = multiFieldQueryParser.parse("lucene");

 // 打印生成的搜索语句

 System.out.println(query);

 // 执行搜索

 doSearch(query);

 }

生成的查询语句:

name:lucene desc:lucene

4.4. TopDocs

Lucene搜索结果可通过TopDocs遍历,TopDocs类提供了少量的属性,如下:

方法或属性

说明

totalHits

匹配搜索条件的总记录数

scoreDocs

顶部匹配记录

注意:

Search方法需要指定匹配记录数量n:indexSearcher.search(query, n)

TopDocs.totalHits:是匹配索引库中所有记录的数量

TopDocs.scoreDocs:匹配相关度高的前边记录数组,scoreDocs的长度小于等于search方法指定的参数n

5. 相关度排序(了解)

5.1. 什么是相关度排序

相关度排序是查询结果按照与查询关键字的相关性进行排序,越相关的越靠前。比如搜索“Lucene”关键字,与该关键字最相关的文章应该排在前边。

5.2. 相关度打分  

Lucene对查询关键字和索引文档的相关度进行打分,得分高的就排在前边。如何打分呢?Lucene是在用户进行检索时实时根据搜索的关键字计算出来的,分两步:

1)计算出词(Term)的权重

2)根据词的权重值,计算文档相关度得分。

什么是词的权重?

通过索引部分的学习,明确索引的最小单位是一个Term(索引词典中的一个词)。搜索也是从索引域中查询Term,再根据Term找到文档。Term对文档的重要性称为权重,影响Term权重有两个因素:

l Term Frequency (tf):

指此Term在此文档中出现了多少次。tf 越大说明越重要。

词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要,如“Lucene”这个词,在文档中出现的次数很多,说明该文档主要就是讲Lucene技术的。

l Document Frequency (df):

指有多少文档包含此Term。df 越大说明越不重要。

比如,在一篇英语文档中,this出现的次数更多,就说明越重要吗?不是的,有越多的文档包含此词(Term), 说明此词(Term)太普通,不足以区分这些文档,因而重要性越低。

5.3. 设置boost值影响相关度排序

boost是一个加权值(默认加权值为1.0f),它可以影响权重的计算。在索引时对某个文档中的field设置加权值,设置越高,在搜索时匹配到这个文档就可能排在前边。

未设置权重:

希望把name为spring的排名提高

先清空索引库,然后修改创建索引的代码,添加设置加权值的逻辑

修改创建索引代码:

 public class CreateIndexTest {
@Test
public void testCreateIndex() throws Exception {
//1.采集数据
BookDao bd = new BookDaoImpl();
List<Book> bookList = bd.queryBookList();
//2.创建Document文档对象
List<Document> documents = new ArrayList<>();
for (Book book : bookList) {
Document document = new Document();
// Document文档中添加Field域
// 图书Id
// Store.YES:表示存储到文档域中
// 不分词,不索引,储存
document.add(new StoredField("id", book.getId().toString()));
// 图书名称
// 分词,索引,储存
TextField nameField = new TextField("name", book.getName().toString(), Store.YES);
if (book.getId()==4) {
nameField.setBoost(10);
}
document.add(nameField);
// 图书价格
// 分词,索引,储存
document.add(new FloatField("price", book.getPrice(), Store.YES));
// 图书图片地址
// 不分词,不索引,储存
document.add(new StoredField("pic", book.getPic().toString()));
// 图书描述
// 分词,索引,不储存
document.add(new TextField("desc", book.getDesc().toString(), Store.NO));
// 把Document放到list中
documents.add(document);
}
//3.创建分析器(分词器)
//StandardAnalyzer standardAnalyzer = new StandardAnalyzer();
IKAnalyzer analyzer = new IKAnalyzer();
//4.创建IndexWriterConfig配置信息类
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
//5.创建Directory对象,声明索引库存储位置
Directory directory = FSDirectory.open(new File("F:\\temp\\index"));
//6.创建IndexWriter写入对象
IndexWriter indexWriter = new IndexWriter(directory, config);
//7.把Document写入到索引库中
for (Document document : documents) {
indexWriter.addDocument(document);
}
//8.释放资源
indexWriter.close(); }
}

Lucene补充的更多相关文章

  1. 学习笔记(二)--Lucene简介

    Lucene简介 最受欢迎的java开源全文搜索引擎开发工具包.提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人员提供一个简单易用的工具包, ...

  2. Lucene系列二:Lucene(Lucene介绍、Lucene架构、Lucene集成)

    一.Lucene介绍 1. Lucene简介 最受欢迎的java开源全文搜索引擎开发工具包.提供了完整的查询引擎和索引引擎,部分文本分词引擎(英文与德文两种西方语言).Lucene的目的是为软件开发人 ...

  3. 借助 Lucene.Net 构建站内搜索引擎(上)

    前言:最近翻开了之前老杨(杨中科)的Lucene.Net站内搜索项目的教学视频,于是作为老杨脑残粉的我又跟着复习了一遍,学习途中做了一些笔记也就成了接下来您看到的这篇博文,仅仅是我的个人笔记,大神请呵 ...

  4. 借助 Lucene.Net 构建站内搜索引擎(下)

    前言:上一篇我们学习了Lucene.Net的基本概念.分词以及实现了一个最简单的搜索引擎,这一篇我们开始开发一个初具规模的站内搜索项目,通过开发站内搜索模块,我们可以方便地在项目中集成站内搜索功能.本 ...

  5. lucene中Field.Index,Field.Store详解

    lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZE ...

  6. MVC+MQ+WinServices+Lucene.Net Demo

    前言: 我之前没有接触过Lucene.Net相关的知识,最近在园子里看到很多大神在分享这块的内容,深受启发.秉着“实践出真知”的精神,再结合公司项目的实际情况,有了写一个Demo的想法,算是对自己能力 ...

  7. 【转载】Lucene.Net无障碍学习和使用:搜索篇

    在上一篇中,我们初步理解了索引的增删改查基本操作.本文着重介绍一下常用的搜索,以及搜索结果的排序和分页.本文的搜索主要是基于前一篇介绍的文本文件的索引,建议下载最后改进的demo对照着看阅读本文,同时 ...

  8. 【转载】lucene中Field.Index,Field.Store详解

    lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZE ...

  9. 谈谈Lucene和Solr索引存目录

    在Lucene中,有几种索引存放模式呢?用过的人可能记得SimpleFSDirectory.MMapDirectory.NIOFSDirectory.RAMDirectory这四种.新版本的通过FSD ...

随机推荐

  1. SQL-OVER与四种排名函数:ROW_NUMBER(),RANK(),DENSE_RANK(),NTILE()

    1 SELECT orderid,custid,val, ROW_NUMBER() OVER(ORDER BY val) AS rownum, RANK() OVER(ORDER BY val) AS ...

  2. centors7 elasticsearch6.3安装以及问题记录

    1.安装elasticsearch . 安装系统:centors7 1.下载安装包 官网地址:https://www.elastic.co/downloads/past-releases 2.mac文 ...

  3. Linux-文件目录命令

    黑色 代表是普通的文件 蓝色 代表是目录(文件夹) 紫色 代表是图片文件 绿色 代表是可以执行的文件(脚本文件)-->存放linux命令的 红色 代表是压缩文件 clear:清屏pwd:显示当前 ...

  4. JavaScript 模块化入门

    理解模块 模块打包构建 webpack牛刀小试

  5. Linux内核 网络数据接收流程图

      各层主要函数以及位置功能说明:       1)sock_read:初始化msghdr{}的结构类型变量msg,并且将需要接收的数据存放的地址传给msg.msg_iov->iov_base. ...

  6. es6常见特性

    Parameters(参数) in ES6 Template Literals (模板文本)in ES6 Multi-line Strings (多行字符串)in ES6 Destructuring  ...

  7. C# winfrom提示框,点击则不显示,不点击则提示输入内容

    先看下效果图,初次进来是界面左边的效果,点击请输入账号,清除内容,可以直接输入,右边图                            以下代码是失去焦点的,一定要把控件的属性TabStop 改 ...

  8. python之路——进程

    操作系统背景知识 顾名思义,进程即正在执行的一个过程.进程是对正在运行程序的一个抽象. 进程的概念起源于操作系统,是操作系统最核心的概念,也是操作系统提供的最古老也是最重要的抽象概念之一.操作系统的其 ...

  9. 入门级 - 码云(Gitee),GitHub 教程

    这篇文章的目的是记录我的关于GitHub的内容,从注册.下载直到设置成功每一步都有解释,其中有一些截图或者代码来自于网络. GitHub和码云均基于Git,所以两者的操作方法基本一致,只需要学习其中一 ...

  10. Python实例---利用正则实现计算器[FTL版]

    import re # 格式化 def format_str(str): str = str.replace('--', '+') str = str.replace('-+', '-') str = ...