【Lucene实验1】构建索引

一、实验名称：构建索引

二、实验日期：2013/9/21

三、实验目的：

1) 能理解Lucene中的Document-Field结构的数据建模过程；

2) 能编针对特定数据生成索引文件。

四、实验用的仪器和材料：

MyEclipse 10，JDK

五、实验的步骤和方法：

题目一：在指定目录生成表示3本书的索引，要求建立3个document分别存放书名数据。把生成的索引文件截好图（复合索引与一般索引各生成一次）

图1：一般索引的截图

图2：复合索引的截图

题目二：修改题目一的代码，使用多值域在一个文档中存放3本书的书名值。

题目三：针对题目一的三个文档，分别做如下操作：根据书名在索引中删除一个值、修改一个文档的域值。

实验过程：

题目一源代码：

package lab02;

import java.io.File;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.Term;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

public class GreatIndex {

	public static void main(String[] args) {

		GreatIndex GreateIndexobj=new GreatIndex();

		try {

		     GreateIndexobj.setUp();

		} catch (Exception e) {

			// TODO: handle exception

			e.printStackTrace();

		}

	}

	private String indexDir="E:/Users/Administrator/Workspaces/MyEclipse 10/mylucene/src/lab02/index";

	private Directory directory; //表示索引存放的目录

	public void setUp()throws Exception {

		//directory =new RAMDirectory(); //索引存放在内存的RAM中

		directory =FSDirectory.open((new File(indexDir))); //索引存放在物理硬盘的文件系统内（就是存放指定路径）

		IndexWriter writer=new IndexWriter(directory,

				new StandardAnalyzer(Version.LUCENE_30),true,IndexWriter.MaxFieldLength.UNLIMITED);

		//write.setUseCompoundFile(false);//设置false就是使用一般索引（有多种文件的）

		//建立3本书的document

		Document doc1=new Document();

		Document doc2=new Document();

		Document doc3=new Document();

		//建立名字叫“bookname”的field并添加域值到文档中，设置国域值存储到索引中，不被分词与加权

		doc1.add(new Field("bookname", "伐清",

				Field.Store.YES,

				Field.Index.NOT_ANALYZED_NO_NORMS));

		doc2.add(new Field("bookname", "奥术神座",

				Field.Store.YES,

				Field.Index.NOT_ANALYZED_NO_NORMS));

		doc1.add(new Field("bookname", "冰与火之歌",

				Field.Store.YES,

				Field.Index.NOT_ANALYZED_NO_NORMS));

		writer.addDocument(doc1);

		writer.addDocument(doc2);

		writer.addDocument(doc3);

		writer.close();

	}

}

题目二源代码：

package lab02;

import java.io.File;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.Term;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

public class GreatIndex {

	public static void main(String[] args) {

		GreatIndex GreateIndexobj=new GreatIndex();

		try {

			//GreateIndexobj.setUp();

		     GreateIndexobj.setUp2();

		} catch (Exception e) {

			// TODO: handle exception

			e.printStackTrace();

		}

	}

	private String indexDir="E:/Users/Administrator/Workspaces/MyEclipse 10/mylucene/src/lab02/index";

	private Directory directory; //表示索引存放的目录

	private String[] booknames={"伐清","奥术神座","冰与火之歌"};

	public void setUp2() throws Exception{

		//directory =new RAMDirectory(); //索引存放在内存的RAM中

		directory =FSDirectory.open((new File(indexDir))); //索引存放在物理硬盘的文件系统内（就是存放指定路径）

		IndexWriter writer=new IndexWriter(directory,

				new StandardAnalyzer(Version.LUCENE_30),true,IndexWriter.MaxFieldLength.UNLIMITED);

		//writer.setUseCompoundFile(false);//设置false就是使用一般索引（有多种文件的）

		//建立包含三个域值的document

		Document doc=new Document();

		for (String bookname:booknames) {

			doc.add(new Field("bookname",bookname,Field.Store.YES,

					Field.Index.NOT_ANALYZED_NO_NORMS));

		}

		writer.addDocument(doc);

		writer.close();

	}

}

题目三源代码：

  //题目三

	public void DeleteDocument()throws IOException{

		IndexWriter writer=new IndexWriter(directory,

				new StandardAnalyzer(Version.LUCENE_30),true,IndexWriter.MaxFieldLength.UNLIMITED);

		writer.optimize();//使用优化策略删除文档（直接删除，不能回复）

		writer.deleteDocuments(new Trem("bookname", "伐清"));

writer.close();

	}

	public void UpdateDocument() throws IOException{

		IndexWriter writer=new IndexWriter(directory,

				new StandardAnalyzer(Version.LUCENE_30),true,IndexWriter.MaxFieldLength.UNLIMITED);

		//构建一个新的document用与替换

		Document doc=new Document();

		doc.add(new Field("bookname","Lucene实战第二版",

				Field.Store.YES,

				Field.Index.NOT_ANALYZED_NO_NORMS));

		writer.updateDocument(new Term("bookname","官仙"), doc);

		writer.close();

	}

六、数据记录和计算：

项目的结构图：

七、实验结果或结论：

总结:通过这次的实验,我基本理解Lucene中的Document-Field结构的数据建模过程, 能编针对特定数据生成索引文件.在这次的实验过程中,实验不是很顺利,这次实验让我感受到了Lucene的强大,增加我对Lucene的兴趣!

八、备注或说明：

九、引用参考文献：

http://lucene.apache.org

【Lucene实验1】构建索引的更多相关文章

如何提高Lucene构建索引的速度
如何提高Lucene构建索引的速度 hans(汉斯) 2013-01-27 10:12 对于Lucene>=2.3:IndexWriter可以自行根据内存使用来释放缓存.调用writer.set ...
【Lucene】Apache Lucene全文检索引擎架构之构建索引2
上一篇博文中已经对全文检索有了一定的了解,这篇文章主要来总结一下全文检索的第一步:构建索引.其实上一篇博文中的示例程序已经对构建索引写了一段程序了,而且那个程序还是挺完善的.不过从知识点的完整性来考虑 ...
利用Lucene与Nutch构建简单的全文搜索引擎
文章地址 1.简介本次实现分为两个部分,第一个部分是利用Lucene构建一个全文的搜索引擎,另外一部分则是利用Nutch实现同样的功能.由于Lucene并不是一个可以直接运行的程序,且不具备爬虫和文 ...
构建NCBI本地BLAST数据库 (NR NT等) | blastx/diamond使用方法 | blast构建索引 | makeblastdb
参考链接: FTP README 如何下载 NCBI NR NT数据库? 下载blast:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+ 先了解 ...
【转】Lucene工作原理——反向索引
原文链接: http://my.oschina.net/wangfree/blog/77045 倒排索引倒排索引(反向索引) 倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项 ...
如何使用Spark大规模并行构建索引
使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法 ...
Lucene实战构建索引
搭建lucene的步骤这里就不详细介绍了,无外乎就是下载相关jar包,在eclipse中新建java工程,引入相关的jar包即可本文主要在没有剖析lucene的源码之前实战一下,通过实战来促进研究 ...
Lucene构建索引时的一些概念和索引构建的过程
在搜索文档内容之前要做的事情就是对从各种不同来源(网页,数据库,电子邮件等)的文档进行索引,索引的过程就是对内容进行提取,规范化(通过对内容进行建模来实现),然后存储. 在索引的过程中有几个基本的概念 ...
lucene 3.0.2 + 多文件夹微博数据（时间，微博）构建索引
package lia.meetlucene; import java.io.File; import java.io.IOException; import java.util.LinkedList ...

随机推荐

redis的简单安装配置
一.简介 Redis是一种高级key-value数据库,数据可以持久化,支持的数据类型很丰富,有字符串,哈希,链表,集合和有序集合5种数据类型 Redis支持在服务器端计算集合的并,交和补集(diff ...
问题解决——基于MSCOMM32.OCX控件的类在客户机不能创建控件
大家不要笑我了,我不喜欢用那个人家写的串口类. 所以导出了MSCOMM32.OCX的类,然后在此基础上写了一个串口打印机的小工具类. -------------声明--------------- 本文 ...
python正则表达式小例几则
会用到的语法正则字符释义举例 + 前面元素至少出现一次 ab+:ab.abbbb 等 * 前面元素出现0次或多次 ab*:a.ab.abb 等 ? 匹配前面的一次或0次 Ab?: A.Ab 等 ...
虚拟机Linux----Ubuntu1204----设置固定Ip
1.介绍环境:ubuntu版本是12.04,虚拟机是Oracle Vm VirtualBox 2.说明需求:现在已经安装了一个ubuntu系统,网络配置是默认选择桥接,可以上网,物理机可以连接虚拟 ...
GUID分区与MBR分区
1.MBR分区表类型的磁盘主引导记录(Master Boot Record,缩写:MBR),又叫做主引导扇区,它仅仅包含一个64个字节的硬盘分区表.由于每个分区信息需要16个字节,所以对于采用MBR型 ...
ubuntu自带的gedit编辑器添加Markdown预览插件
gedit安装Markdown Preview Ubuntu自带的gedit编辑器也是有很强大的功能的,且支持插件的安装.对于喜欢用Markdown的我来说,这当然是很好的了,gedit本身就支持M ...
display:-webkit-box
Flexbox 为 display 属性赋予了一个新的值(即 box 值), flexbox的属性有很多,记录一些比较常用的属性: 用于父元素的样式: display: box; 该属性会将此元素及其 ...
[转]SQLServer 2008数据库查看死锁、堵塞的SQL语句
本文转自:http://www.cnblogs.com/zhuque/archive/2012/11/08/2763343.html 死锁和堵塞一直是性能测试执行中关注的重点. 下面是我整理的监控sq ...
QEMU启动时插入tap虚拟网卡
1.利用brctl命令创建虚拟网桥br0 brctl addbr br0 ifconfig br0 up //上述两条命令分开执行会导致网络断开 2.将虚拟网桥br0与物理网卡eth0绑定 brctl ...
好玩的-记最近玩的几个经典ipad ios游戏
最近回了趟家,在家里闲着没事去app store找了找一些高分游戏玩一玩,下面就是我最近玩的游戏. 海岛奇兵想必大家都很了解,这是由开发过clash of clan部落冲突的公司所开发的另一款多人策 ...

【Lucene实验1】构建索引

【Lucene实验1】构建索引的更多相关文章

随机推荐

热门专题