IndexWriter

Hibernate的SessionFactory

在Hibernate中。一般保持一个数据库就仅仅有一个SessionFactory。由于在SessionFactory中维护二级缓存，而SessionFactory又是线程安全的。

所以SessionFactory是共享的。

lucene的IndexWriter

假设同一时候在一个索引库中同一时候建立两个IndexWriter,比如：

		IndexWriter indexWriter = new IndexWriter(LuceneUtils.directory,LuceneUtils.analyzer,MaxFieldLength.LIMITED);

		IndexWriter indexWriter2 = new IndexWriter(LuceneUtils.directory,LuceneUtils.analyzer,MaxFieldLength.LIMITED);

这种代码会出现异常

而lucene的文件夹结构：

.会出现write.lock这个文件。

由于当一个IndexWriter在进行读索引库操作的时候，lucene会为索引库。以防止其它IndexWriter訪问索引库而导致数据不一致，直到IndexWriter关闭为止。

结论：同一个索引库仅仅能有一个IndexWriter进行操作。

封装IndexWriter的类LuceneIndexWriter

public class LuceneIndexWriter {

	private static IndexWriter indexWriter = null;

	public static IndexWriter getIndexWriter() {

		if (indexWriter == null) {

			try {

				indexWriter = new IndexWriter(LuceneUtils.directory,

						LuceneUtils.analyzer, MaxFieldLength.LIMITED);

			} catch (CorruptIndexException e) {

				e.printStackTrace();

			} catch (LockObtainFailedException e) {

				e.printStackTrace();

			} catch (IOException e) {

				e.printStackTrace();

			}

		}

		return indexWriter;

	}

	public static void close() {

		if (indexWriter != null) {

			try {

				indexWriter.close();

			} catch (CorruptIndexException e) {

				e.printStackTrace();

			} catch (IOException e) {

				e.printStackTrace();

			}

		} else {

			System.out.println("indexWriter为空。不能关闭！

");

		}

	}

}

注：这里用单例模式做比較好。

/**

 * 1、索引库的增、删、改是由indexWriter来操作的

 * 2、同一个时刻内。同一个索引库。仅仅能同意一个indexWriter操作

 * 3、当IndexWriter创建完毕以后。indexwriter所指向的索引库就被占据了，仅仅有当indexWriter.close时。才干释放锁的资源

 * 4、当一个新的indexWriter想拥有索引库时。原来的indexWriter必须释放锁

 * 5、仅仅要索引库中存在write.lock文件。说明上锁了

 * 6、indexWriter.close有两层含义：

 *     *  关闭IO资源

 *     *  释放锁

 * @author Administrator

 *

 */

public class IndexWriterTest {

	@Test

	public void testIndexWriter() throws Exception{

		IndexWriter indexWriter = new IndexWriter(LuceneUtils.directory,LuceneUtils.analyzer,MaxFieldLength.LIMITED);

		indexWriter.close();

		IndexWriter indexWriter2 = new IndexWriter(LuceneUtils.directory,LuceneUtils.analyzer,MaxFieldLength.LIMITED);

	}

}

索引库的优化

当运行创建索引多次时。索引库的文件如图所看到的：(索引里内容是一样的)

从图中能够看出来，每运行一次就生成一个cfs文件。当运行delete操作时，会生成如图所看到的的结构：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvSmVyb21lX3M=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

从图中能够看出来。lucene在运行删除的时候，是先把要删除的元素形成了一个文件del文件，然后再和cfs文件进行整合得出最后结果。

结论：假设添加、删除重复操作非常多次，就会造成文件大量添加。这样检索的速度也会下降。所以我们有必要去优化索引结构。使文件的结构发生改变从而提高效率。

手动合并文件

合并多个小文件为一个大文件，降低IO操作：

在indexWriter.close();前加上

indexWriter.optimize();

就可以

在运行完上述代码后，索引库的结构为：

能够看出把该合并的项都合并了。把del文件彻底所有删除掉了。

自己主动合并文件

indexWriter.setMergeFactor(3);

当cfs文件的数量为3个时，这是会自己主动合并成一个文件。

假设没有设置数量，默认情况下为10；

lucene_indexWriter说明、索引库优化的更多相关文章

Lucene第二篇【抽取工具类、索引库优化、分词器、高亮、摘要、排序、多条件搜索】
对Lucene代码优化我们再次看回我们上一篇快速入门写过的代码,我来截取一些有代表性的: 以下代码在把数据填充到索引库,和从索引库查询数据的时候,都出现了.是重复代码! Directory dire ...
MySQL引擎、索引和优化（li）
一.存储引擎存储引擎,MySQL中的数据用各种不同的技术存储在文件(或者内存)中.这些技术中的每一种技术都使用不同的存储机制.索引技巧.锁定水平并且最终提供广泛的不同的功能和能力.通过选择不同的技术 ...
使用solrj操作solr索引库
(solrj)初次使用solr的开发人员总是很郁闷,不知道如何去操作solr索引库,以为只能用<五分钟solr4.5教程(搭建.运行)>中讲到的用xml文件的形式提交数据到索引库,其实没有 ...
使用solrj操作solr索引库,solr是lucene服务器
客户端开发 Solrj 客户端开发 Solrj Solr是搭建好的lucene服务器当然不可能完全满足一般的业务需求可能要针对各种的架构和业务调整这里就需要用到Solrj了 Solrj是Sol ...
JAVAEE——Solr：安装及配置、后台管理索引库、使用SolrJ管理索引库、仿京东的电商搜索案例实现
1 学习回顾 1. Lucene 是Apache开源的全文检索的工具包创建索引查询索引 2. 遇到问题? 文件名及文件内容顺序扫描法全文检索 3. 什么是全文检索? 这种先创建索引再 ...
JAVAEE——Lucene基础：什么是全文检索、Lucene实现全文检索的流程、配置开发环境、索引库创建与管理
1. 学习计划第一天:Lucene的基础知识 1.案例分析:什么是全文检索,如何实现全文检索 2.Lucene实现全文检索的流程 a) 创建索引 b) 查询索引 3.配置开发环境 4.创建索引库 5 ...
配置好solr搜索引擎服务器后java后台如何将商品信息导入索引库
首先,在配置文件目录中添加solr 服务器的bean 配置文件 solr服务器的url可以写在配置文件中: url地址其实就是我们网页可以访问的solr地址: 然后我们写 service packag ...
Elasticsearch之重要核心概念（cluster（集群）、shards（分配）、replicas（索引副本）、recovery（据恢复或叫数据重新分布）、gateway（es索引的持久化存储方式）、discovery.zen（es的自动发现节点机制机制）、Transport（内部节点或集群与客户端的交互方式）、settings（修改索引库默认配置）和mappings）
Elasticsearch之重要核心概念如下: 1.cluster 代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的.es的一个概念就是 ...
Python—一个简单搜索引擎索引库
因为课业要求,搭建一个简单的搜索引擎,找了一些相关资料并进行了部分优化(坑有点多) 一.数据数据是网络上爬取的旅游相关的攻略页面这个是travels表,在索引中主要用到id和url两个字段. 页面 ...

随机推荐

Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
useful-scripts
最近在github看到关于一些比较好的java相关脚本.vcs脚本.shell脚本.怕以后忘记了,在此做个备注. 原链接为:https://github.com/oldratlee/useful-sc ...
HDU 4911 Inversion
http://acm.hdu.edu.cn/showproblem.php?pid=4911 归并排序求逆对数. Inversion Time Limit: 2000/1000 MS (Java/ ...
poj1247 bjfu1239水题
其实就是读题啦,读懂题很简单,就是问一个数组,存不存在一个点,按这个点切成两半,这两半的数字的和是一样的.不多说了,上代码 /* * Author : ben */ #include <cstd ...
IOS UINavigationController 操作相关集合
1.修改中间Title字体以及大小 [self.navigationController.navigationBar setTitleTextAttributes:[NSDictionary dict ...
ASP.NET Session丢失的解决方案
正常操作情况下会有ASP.NET Session丢失的情况出现.因为程序是在不停的被操作,排除Session超时的可能.另外,Session超时时间被设定成60分钟,不会这么快就超时的.现在我就把原因 ...
subclipse svn 在64位win7下报Failed to load JavaHL Library
数往知来C#面向对象准备〈二〉
面向对象(OOP→Object-Oriented Programming) 1.什么是面向对象? 一种分析问题的方式. 2.面向对象三大特征: 封装(隐蔽代码实现/复用/修改方便).继承.多态. 3. ...
VS20xx下项目开发目录管理方法
在VS20XX之后项目管理使用解决方案(solution)管理一个大的开发工程中多个项目(Project). 以下目录配置与工程名称无关,适用于一般的工程组织过程. 对于一般的生成可执行程序的工程,使 ...
The Services（服务）
datastore和运行时环境的关系就是和一个服务的关系:应用使用API访问一个独立的系统(separate system),这个系统管理应用的所有的独立于应用实例的扩展需求(scaling need ...