Lucene 的 Field 域和索引维护

一、Field 域

1.Field 属性

Field 是文档中的域，包括 Field 名和 Field 值两部分，一个文档可以包括多个 Field，Document 只是 Field 的一个承载体，Field 值即为要索引的内容，也是要搜索的内容。

是否分词 (tokenized)

是：作分词处理，即将 Field 值进行分词，分词的目的是为了索引。

比如：商品名称、商品简介等，这些内容用户要输入关键字搜索，由于搜索的内容格式大、内容多需要分词后将语汇单元索引。

否：不作分词处理

比如：商品 id、订单号、身份证号等

是否索引 (indexed)

是：进行索引。将 Field 分词后的词或整个 Field 值进行索引，索引的目的是为了搜索。

比如：商品名称、商品简介分析后进行索引，订单号、身份证号不用分析但也要索引，这些将来都要作为查询条件。

否：不索引。该域的内容无法搜索到

比如：商品 id、文件路径、图片路径等，不用作为查询条件的不用索引。

是否存储 (stored)

是：将 Field 值存储在文档中，存储在文档中的 Field 才可以从 Document 中获取。

比如：商品名称、订单号，凡是将来要从 Document 中获取的 Field 都要存储。

否：不存储 Field 值，不存储的 Field 无法通过 Document 获取

比如：商品简介，内容较大不用存储。如果要向用户展示商品简介可以从系统的关系数据库中获取商品简介。

如果需要商品描述，则根据搜索出的商品 ID 去数据库中查询，然后显示出商品描述信息即可。

2.Field 常用类型

开发中常用 的 Filed 类型，注意 Field 的属性，根据需求选择：

Field 常用类型. PNG

3.Field 改进代码

图书 id：

是否分词：不用分词，因为不会根据商品 id 来搜索商品

是否索引：不索引，因为不需要根据图书 ID 进行搜索

是否存储：要存储，因为查询结果页面需要使用 id 这个值。

图书名称：

是否分词：要分词，因为要将图书的名称内容分词索引，根据关键搜索图书名称抽取的词。

是否索引：要索引。

是否存储：要存储。

图书价格：

是否分词：要分词，lucene 对数字型的值只要有搜索需求的都要分词和索

引，因为 lucene 对数字型的内容要特殊分词处理，本例子可能要根据价格范

围搜索，需要分词和索引。

是否索引：要索引

是否存储：要存储

图书图片地址：

是否分词：不分词

是否索引：不索引

是否存储：要存储

图书描述：

是否分词：要分词

是否索引：要索引

是否存储：因为图书描述内容量大，不在查询结果页面直接显示，不存储。

不存储是来不在 lucene 的索引文件中记录，节省 lucene 的索引文件空间，

如果要在详情页面显示描述，思路：

从 lucene 中取出图书的 id，根据图书的 id 查询关系数据库中 book 表

得到描述信息。

代码：

@Test

public void createIndex() throws Exception {

// 采集数据

BookDao dao = new BookDaoImpl();

List<Book> list = dao.queryBooks();

// 将采集到的数据封装到Document对象中

List<Document> docList = new ArrayList<>();

Document document;

for (Book book : list) {

    document = new Document();

    // store:如果是yes，则说明存储到文档域中

    // 图书ID

    // 不分词、索引、存储 StringField

    Field id = new StringField("id", book.getId().toString(), Store.YES);

    // 图书名称

    // 分词、索引、存储 TextField

    Field name = new TextField("name", book.getName(), Store.YES);

    // 图书价格

    // 分词、索引、存储 但是是数字类型，所以使用FloatField

    Field price = new FloatField("price", book.getPrice(), Store.YES);

    // 图书图片地址

    // 不分词、不索引、存储 StoredField

    Field pic = new StoredField("pic", book.getPic());

    // 图书描述

    // 分词、索引、不存储 TextField

    Field description = new TextField("description",

            book.getDescription(), Store.NO);

    // 设置boost值

    if (book.getId() == 4)

        description.setBoost(100f);

    // 将field域设置到Document对象中

    document.add(id);

    document.add(name);

    document.add(price);

    document.add(pic);

    document.add(description);

    docList.add(document);

}

二、索引维护

需求：

管理人员通过电商系统更改图书信息，这时更新的是数据库，如果使用 lucene 搜索图书信息需要在数据库表 book 信息变化时及时更新 lucene 索引库。

1. 添加索引

调用 indexWriter.addDocument（doc）添加索引。

@Test

public void createIndex() throws Exception {

// 采集数据

BookDao dao = new BookDaoImpl();

List<Book> list = dao.queryBooks();

// 将采集到的数据封装到Document对象中

List<Document> docList = new ArrayList<>();

Document document;

for (Book book : list) {

    document = new Document();

    // store:如果是yes，则说明存储到文档域中

    // 图书ID

    Field id = new TextField("id", book.getId().toString(), Store.YES);

    // 图书名称

    Field name = new TextField("name", book.getName(), Store.YES);

    // 图书价格

    Field price = new TextField("price", book.getPrice().toString(),

            Store.YES);

    // 图书图片地址

    Field pic = new TextField("pic", book.getPic(), Store.YES);

    // 图书描述

    Field description = new TextField("description",

            book.getDescription(), Store.YES);

    // 将field域设置到Document对象中

    document.add(id);

    document.add(name);

    document.add(price);

    document.add(pic);

    document.add(description);

    docList.add(document);

}

// 创建分词器，标准分词器

Analyzer analyzer = new StandardAnalyzer();

// 创建IndexWriter

IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,

        analyzer);

// 指定索引库的地址

File indexFile = new File("E:\\11-index\\hm19\\");

Directory directory = FSDirectory.open(indexFile);

IndexWriter writer = new IndexWriter(directory, cfg);

// 通过IndexWriter对象将Document写入到索引库中

for (Document doc : docList) {

    writer.addDocument(doc);

}

// 关闭writer

writer.close();

}

2. 删除索引

2.1 删除指定索引

根据 Term 项删除索引，满足条件的将全部删除。

Term 是索引域中最小的单位。根据条件删除时，建议根据唯一键来进行删除。在 solr 中就是根据 ID 来进行删除和修改操作的。

@Test

public void deleteIndex() throws Exception {

// 创建分词器，标准分词器

Analyzer analyzer = new StandardAnalyzer();

// 创建IndexWriter

IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,

        analyzer);

Directory directory = FSDirectory

        .open(new File("E:\\11-index\\hcx\\"));

// 创建IndexWriter

IndexWriter writer = new IndexWriter(directory, cfg);

// Terms

writer.deleteDocuments(new Term("id", "1"));

writer.close();

}

2.2 删除全部索引（慎用）

将索引目录的索引信息全部删除，直接彻底删除，无法恢复。慎用！

// 删除索引

@Test

public void deleteIndex() throws Exception {

// 1、指定索引库目录

Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));

// 2、创建IndexWriterConfig

IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,

        new StandardAnalyzer());

// 3、 创建IndexWriter

IndexWriter writer = new IndexWriter(directory, cfg);

// 4、通过IndexWriter来删除索引

// a)、删除全部索引

writer.deleteAll();

// 5、关闭IndexWriter

writer.close();

}

建议参照关系数据库基于主键删除方式，所以在创建索引时需要创建一个主键 Field，删除时根据此主键 Field 删除。

索引删除后将放在 Lucene 的回收站中，Lucene3.X 版本可以恢复删除的文档，3.X 之后无法恢复。

3. 修改索引

更新索引是先删除再添加，建议对更新需求采用此方法并且要保证对已存在的索引执行更新，可以先查询出来，确定更新记录存在执行更新操作。

@Test

public void updateIndex() throws Exception {

// 创建分词器，标准分词器

Analyzer analyzer = new StandardAnalyzer();

// 创建IndexWriter

IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,

        analyzer);

Directory directory = FSDirectory

        .open(new File("E:\\11-index\\hcx\\"));

// 创建IndexWriter

IndexWriter writer = new IndexWriter(directory, cfg);

// 第一个参数：指定查询条件

// 第二个参数：修改之后的对象

// 修改时如果根据查询条件，可以查询出结果，则将以前的删掉，然后覆盖新的Document对象，如果没有查询出结果，则新增一个Document

// 修改流程即：先查询，再删除，在添加

Document doc = new Document();

doc.add(new TextField("name", "lisi", Store.YES));

writer.updateDocument(new Term("name", "zhangsan"), doc);

writer.close();

}

本文作者： IIsKei

本文链接： http://www.iskei.cn/posts/40393.html

版权声明： 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处！

Lucene 的 Field 域和索引维护的更多相关文章

（三）Lucene——Field域和索引的增删改
1. Field域 1.1 Field的属性是否分词(Tokenized) 是:对该field存储的内容进行分词,分词的目的,就是为了索引. 比如:商品名称.商品描述.商品价格否:不 ...
lucene实践 - 索引维护、多域查询、高亮显示
之前的博客搜索栏用的是 sql 模糊查询进行查找,最近学完lucene,要学以致用啊,就把sql搜索给替换下来吧中间遇到一些问题,也是学过程中没有提到的,所以说,还是实践出真知啊. lucene分开 ...
Lucene——Field.Store（存储域选项）及Field.Index（索引选项）
Field.Store.YES或者NO(存储域选项) 设置为YES表示或把这个域中的内容完全存储到文件中,方便进行文本的还原设置为NO表示把这个域的内容不存储到文件中,但是可以被索引,此时内容无法完 ...
Lucene索引维护(添加、修改、删除)
1. Field域属性分类添加文档的时候,我们文档当中包含多个域,那么域的类型是我们自定义的,上个案例使用的TextField域,那么这个域他会自动分词,然后存储我们要根据数 ...
【Lucene实验1】构建索引
一.实验名称:构建索引二.实验日期:2013/9/21 三.实验目的: 1) 能理解Lucene中的Document-Field结构的数据建模过程: 2) 能编针对特定数 ...
Lucene基础（二）--索引的操作
索引的操作我们建立所有就是要达到快速检索的目的,对数据能够方面便的查找,和数据库类似,索引也有自己的相关增删改查的操作. 在索引的增删改查中,增删改属于写操作,主要是有IndexWrite提供的方法 ...
Lucene 04 - 学习使用Lucene的Field(字段)
目录 1 Field的特性 2 常用的Field类型 3 常用的Field种类使用 3.1 准备环境 3.2 需求分析 3.3 修改代码 3.4 重新建立索引 1 Field的特性 Document( ...
用Lucene对文档进行索引搜索
问题现在给出很多份文档,现在对某个搜索词感兴趣,想找到相关的文档. 简单搜索一种简单粗暴的做法是: 1.读取每个文档:2.找到其中含有搜索词的文档:3.对找到的文档中搜索词出现的次数统计:4.根据 ...
Lucene中的域选项
Field类是lucene在索引过程中的一个很重要的类,该类控制着域值被索引的方式域选项主要包括以下几种选项:域索引选项.域存储选项.域的项向量选项.域的排序选项等域索引选项:通过倒排索引来控制域 ...

随机推荐

OpenLiveWriter博客工具
1.OpenLiveWriter安装官网下载地址:http://openlivewriter.org/ 默认安装到:C:\Users\用户\AppData\Local\OpenLiveWriter目 ...
nginx代理配置备份
补充: 代理对文件大小的限制, server {client_max_body_size 100M;listen 9096;server_name gate.chaohuoyy.com; locati ...
linux 服务器安装php5.6
查看原有的php版本:php -v 如果已经装了低版本的php,为了避免冲突,查看: yum list installed | grep php 删除:自行百度吧.可能不能一次性全部删除,只能一个一个 ...
undertow服务器
参考地址:http://undertow.io/undertow-docs/undertow-docs-1.3.0/index.html 1.引入相关jar <dependencies> ...
两个对象值相同 (x.equals(y) == true)，但却可有不同的 hash code，这句话对不对?
不对,如果两个对象x和y满足x.equals(y) == true,它们的哈希码(hash code)应当相同.Java对于eqauls方法和hashCode方法是这样规定的: (1)如果两个对象相同 ...
10月23日——作业1——while循环练习
while循环'''此类编程题,注意带进去试一试1.九九乘法表row=1while row<=9: col=1 while col<=row: print(col,"*" ...
VC++中的CString、char、int类型转换
1.如何将CString类型的变量赋给char*类型的变量方法一:GetBuffer函数使用CString::GetBuffer函数. char *p; CString str=&quo ...
SpringCloud及其五大常用组件之Eureka和Zuul
1.springcloud简介 SpringCloud是Spring旗下的项目之一,它是微服务架构的一种实现方式. 官网地址:http://projects.spring.io/spring-clou ...
手工编写JavaWeb项目
手工编写JavaWeb项目一.打开Tomcat服务器二.编写简单的web项目三.访问项目并且,tomcat服务器也是可以直接访问.txt的,其实就和其它的web服务器一样,什么都可以访问,和之 ...
mysql 新特性之geometry
1.获取矩形两个点的数据(左上角和右下角) SELECT * FROM t_location WHERE MBRContains ( ...

Lucene 的 Field 域和索引维护

Lucene 的 Field 域和索引维护的更多相关文章

随机推荐

热门专题