Lucene整理--索引的建立

看lucene主页（http://lucene.apache.org/）上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号

的不同导致有些方法的使用差异,可是大体还是同样的。

源码用到的jar包（3.0.2版本号）下载地址

參考资料：

1、公司内部培训资料

2、《Lucene搜索引擎开发权威经典》于天恩著.

Lucene使用挺简单的,耐心看完都能学会,还有源码。

一、创建索引的基本方式

全部开源搜索引擎的基本架构和原理都是类似的,Lucene也不例外,用它来建立搜索引擎也是要解决的四个基本问题：抓取数据、解析数据、创建索引和运行搜索。

1、理解创建索引的过程

參考书中对索引的创建有一个非常形象的比喻：

创建索引的过程能够类比为写文集。以下以文集的写作为例进行解说,文集里面有很多文章,每一篇文章包含标题、内容、作品名称、写作时间等信息。

我们採用下面的方式来写这本文集：先写文章，再将文章整合起来。

首先为每一篇文章加入标题、内容、写作时间等信息,从而写好一篇文章。

然后把每一篇文章加入到书里面去,这样文集就写好了。

文集的结构例如以下图所看到的：按从左到右的方向,是读文集,即打开一本书,然后翻阅里面的文章。按从右到左的方向是写文集。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2FvaGFpY2hlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

创建索引的步骤例如以下：

（1）、建立索引器IndexWriter。这相当于一本书的框架

（2）、建立文档对象Document,这相当于一篇文章

（3）、建立信息字段对象Field，这相当于一篇文章中的不同信息（标题、正文等）。

（4）、将Field加入到Document里面。

（5）、将Document加入到IndexWriter里面。

（6）、关闭索引器IndexWriter。

例如以下图所看到的是一个索引的结构,按从左到右是读索引（即搜索）。按从右到左是创建索引：

依照上图所看到的的结构,创建索引有三个主要的步骤：

（1）、创建Field，将文章的不同信息包装起来

（2）、将多个Field组织到一个Document里面。这样完毕了对一篇文章的包装。

（3）、将多个Document组织到一个IndexWriter里面，也就是将多个文章组装起来，终于形成索引

以下的三个小节就依照创建索引的基本步骤来解说创建索引的详细方法。

2、创建Field

创建Field的方法有很多。以下是最经常使用的方法。

Field field=new Field(Field名称，Field内容，存储方式，索引方式);

这四个參数的含义例如以下：

（1）、Field名称就是为Field起的名字。类似于数据表的字段名称。

（2）、Field内容就是该Field的内容，类似数据库表的字段内容。

（3）、存储方式包含三种：不存储（Field.Store.NO）、全然存储（Field.Store.YES）和压缩存储（Field.Store.COMPRESS）。

通常。假设不操心索引太大的话。能够都使用全然存储的方式。

可是。出于对性能的考虑。索引文件的内容是越小越好。因此。假设Field的内容非常少就採用全然存储（如标

题），假设Field的内容非常多就採用不存储或压缩存储的方式，如正文。

（4）、索引的方式包含四种：

不索引（Field.Index.NO）、索引但不分析（Field.Index.NO_NORMS）、索引但不分词（Field.Index.UN_TOKENIZED）、分词并索引（Field.Index.TOKENIZED）。

3、创建Document

创建Document方法例如以下：

Document doc=new Document();

这种方法用来创建一个不含有不论什么Field的空Document。

假设想把Field加入到Document里面，仅仅须要add方法。比如doc.add(field);

反复的使用就能够将多个Field增加到一个Document里面。

4、创建IndexWriter

创建IndexWriter方式也不少,拿出一个经常使用的：

<span style="font-family:SimSun;font-size:12px;"><span style="font-family:SimSun;font-size:12px;">			File indexDir = new File("E:\\Index");

			Directory dir = new SimpleFSDirectory(indexDir);

			Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

			IndexWriter indexWriter = new IndexWriter(dir, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);</span></span>

关于几个參数的介绍：

（1）、Directory （文件夹类型）该类是抽象类

它的直接子类在不同版本号中还是有差别的,我们直说3.0.2版本号,它的子类包含FSDirectory、RAMDirectory、FileSwitchDirectory、CompoundFileReader，两个子类代表着不同的两种文件夹类型

FSDirectory：文件系统中的一个路径,会直接将索引写入到磁盘上

RAMDirectory：内存中的一个区域，虚拟机退出后内容会随之消失，所以须要将RAMDirectory中的内容转到FSDirectory。

FileSwitchDirectory：一个是用于能够同一时候在两个不同的文件夹中读取文件的FileSwitchDirectory，这是个代理类。

CompoundFileReader：是用户读取复合文件的CompoundFileReader。仅仅能读取扩展名为cfs的文件。（写扩展名为cfs的文件用CompoundFileWriter）CompoundFileReader仅在SegmentReader中被引用。

当中FSDirectory又分为3类：

A、windows下的SimpleFSDirectory

B、linux支持NIO的NIOFSDirectory

C、另一个是内存Map文件夹MMapDirectory

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvY2FvaGFpY2hlbmc=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

（2）、Analyzer（分析器）抽象类

负责对各种输入的数据源进行分析，包含过滤和分词等多种功能。

分析器是用来做词法分析的,包含英文分析器和中文分析器等。要依据所要建立的索引的文件情况选择合适的分析器。经常使用的有StandardAnalyzer（标准分析器）、CJKAnalyzer（二分法分词

器）、ChineseAnalyzer（中文分析器）等。

能够依据自己的须要去编辑分析器,从而处理不同的语言文字（当然,我不会）。

IndexWriter创建完之后能够用addDocument()的方法将document对象放置到IndexWriter中：writer.addDocument(doc);

能够放置多个。

终于要调用close()方法关闭索引器，比如writer.close();

到此,创建索引的步骤就介绍完了,以下我们就该看实例了：

二、创建一个简单索引实例：

<span style="font-family:SimSun;font-size:12px;">import java.io.File;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.SimpleFSDirectory;

import org.apache.lucene.util.Version;

public class LuceneMainProcess {

	public static void main(String[] args) {

		createLuceneIndex();

	}

	public static void createLuceneIndex() {

		try {

			File indexDir = new File("E:\\Index");

			Directory dir = new SimpleFSDirectory(indexDir);

			Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);

			//IndexWriter为某个Document建立索引时所取到的Field内的最大词条数目，该属性的初始值为10000

			IndexWriter indexWriter = new IndexWriter(dir, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);

			// 创建8个文档

			Document doc1 = new Document();

			Document doc2 = new Document();

			Document doc3 = new Document();

			Document doc4 = new Document();

			Document doc5 = new Document();

			Document doc6 = new Document();

			Document doc7 = new Document();

			Document doc8 = new Document();

			Field f1 = new Field("bookname", "钢铁是如何炼成的", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f2 = new Field("bookname", "英雄儿女", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f3 = new Field("bookname", "篱笆女人和狗", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f4 = new Field("bookname", "女人是水做的", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f5 = new Field("bookname", "我的兄弟和女儿", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f6 = new Field("bookname", "白毛女", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f7 = new Field("bookname", "钢的世界", Field.Store.YES,

					Field.Index.ANALYZED);

			Field f8 = new Field("bookname", "钢铁战士", Field.Store.YES,

					Field.Index.ANALYZED);

			doc1.add(f1);

			doc2.add(f2);

			doc3.add(f3);

			doc4.add(f4);

			doc5.add(f5);

			doc6.add(f6);

			doc7.add(f7);

			doc8.add(f8);

			indexWriter.addDocument(doc1);

			indexWriter.addDocument(doc2);

			indexWriter.addDocument(doc3);

			indexWriter.addDocument(doc4);

			indexWriter.addDocument(doc5);

			indexWriter.addDocument(doc6);

			indexWriter.addDocument(doc7);

			indexWriter.addDocument(doc8);

			indexWriter.optimize();//对索引进行优化，保证检索时的速度，可是须要消耗内存和磁盘空间，耗时耗力，须要的时候再优化（而非随意时刻）

			indexWriter.close();//关闭索引器，否则会导致索引的数据滞留在缓存中未写入磁盘，有可能连文件夹的锁也没有去除

		} catch (Exception e) {

			e.printStackTrace();

		}

	}

}

</span>

运行之后我们发现E盘下出现了一个index文件夹,这就是我们创建的索引文件。

到此,索引文件也就是创建完成了。

明天接着往下整理索引的读取,到时候我们就能够更直观的推断上面创建的索引是否成功。

Lucene整理--索引的建立的更多相关文章

用Lucene.net对数据库建立索引及搜索<转>
用Lucene.net对数据库建立索引及搜索最近我一直在研究 Lucene.net ,发现Lucene.net对数据库方面建索引的文章在网上很少见,其实它是可以对数据库进行索引的,我闲着没事,写了个 ...
lucene写索引出现锁文件的原因之一
lucene正常情况目录下的文件有三个文件. segments.gen segments_a08, 还有一个类似 _uw.cfs名字的东西. 当然,不一定都一样, 但肯定是这三个. 如果出现了很多文 ...
SQL Server通过整理索引碎片和重建索引提高速度
本文章转载:http://database.51cto.com/art/201108/282408.htm SQL Server数据库中,当索引碎片太多时,就会拖慢数据库查询的速度.这时我们可以通过整 ...
Solr4.8.0源码分析(10)之Lucene的索引文件(3)
Solr4.8.0源码分析(10)之Lucene的索引文件(3) 1. .si文件 .si文件存储了段的元数据,主要涉及SegmentInfoFormat.java和Segmentinfo.java这 ...
Lucene实现索引和查询
0引言随着万维网的发展和大数据时代的到来,每天都有大量的数字化信息在生产.存储.传递和转化,如何从大量的信息中以一定的方式找到满足自己需求的信息,使之有序化并加以利用成为一大难题.全文检索技术是现如 ...
Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
Lucene.net(4.8.0) 学习问题记录六：Lucene 的索引系统和搜索过程分析
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
基于python的Elasticsearch索引的建立和数据的上传
这是我的第一篇博客,还请大家多多指点 Thanks ♪(･ω･)ﾉ今天我想讲一讲关于Elasticsearch的索引建立,当然提前是你已经安装部署好Elasticsearch. ok ...
Lucene -- 实时索引
lucene的实时搜索可以分成:实时和近实时的搜索. 实时只能依靠内存了. 近实时可以用lucene中提供org.apache.lucene.index.DirectoryReader.open(In ...

随机推荐

Oracle 11g安装，新建表空间和用户
windows版: 官网下载,两个压缩包,总共2G,解压到同一个文件夹下,setup.exe双击执行,首次安装的话,一直下一步就可以了,最后一步可能时间比较长,等着就好了,一般性能的机器大概要半小时左 ...
史上最简单的 GitHub 教程
史上最简单的 GitHub 教程温馨提示:本系列博文已经同步到 GitHub,如有需要的话,欢迎大家到「github-tutorial」进行Star和Fork操作! 1 简介 GitHub 是一个面 ...
腾讯企业邮箱SMTP-邮件发送失败异常：“ SMTPSendFailedException:501 ÏµÍ³ÒÑÇ¿ÖÆ¿ªÆôÕÊºÅÉý¼¶ÉèÖÃ£¬ÇëµÇÂ¼e
这里我们在报警发送邮件用的是腾讯的企业邮箱,突然这两天没有报警邮件,很是奇怪发送邮件报错 SMTP-邮件发送失败异常:“ SMTPSendFailedException:501 ÏµÍ³ÒÑÇ¿ÖÆ ...
java debugger
当你想找方法被哪个地方调用了,可以打断点看debugger方法栈 idea Debugger
配置并使用Android支持的库
原文链接:http://android.eoe.cn/topic/android_sdk Android Support Library(支持库)提供了包含一个API库的JAR文件,当你的应用运行在A ...
android笔记--加载框
package com.fuda.ui; import android.app.Activity; import android.os.Bundle; import android.os.Handle ...
Gluster vs Ceph：开源存储领域的正面较量
https://www.oschina.net/news/49048/gluster-vs-ceph 引言:开源存储软件Ceph和Gluster能够提供相似的特性并且能够为用户节省不小的开支.那么谁更 ...
C++11 constexpr使用
C++11为了提高代码执行效率做了一些改善.这种改善之一就是:生成常量表达式,允许程序利用编译时的计算能力.假如你熟悉模板元编程,你将发现constexpr使这一切变得更加简单.constexpr使我 ...
在vue-cli搭建的项目中在后台mock接口中支持req.body和req.cookies
在<vue-cli搭建的项目中增加后台mock接口>中实现了后台mock,但是前端post的t数据都要在mock的后台接口中使用req的接收数据事件获取http协议body中的数据. re ...
vue-cli+webpack在生成的项目中使用bootstrap方法（一）
在一个html页面中加入bootstrap是很方便,就是一般的将css和js文件通过Link和Script标签就行. 那么在一个用vue-vli生成的前端项目中如何加入?因为框架不一样了,略微要适应一 ...

Lucene整理--索引的建立

Lucene整理--索引的建立的更多相关文章

随机推荐

热门专题