Lucene基础(二)--索引的操作
索引的操作
我们建立所有就是要达到快速检索的目的,对数据能够方面便的查找,和数据库类似,索引也有自己的相关增删改查的操作。
在索引的增删改查中,增删改属于写操作,主要是有IndexWrite提供的方法处理;而查显而易见,读操作,使用IndexSeacher 提供的方法来实现。在Lucene的官方文档找到 org.apache.lucene.index.IndexWriter 这个类,我们就可以看到他很多方法。
创建索引
如同上一章里面的代码,创建索引时先建立文件,创建索引的域,再使用IndexWriter的addDocument()方法就可以了,核心代码如下:
iwriter = new IndexWriter(directory, new IndexWriterConfig(version, new StandardAnalyzer(version)));
for(String text : content){ doc = new Document();
//使用的field 有很多类型,理解他们的区别 例如:TextField 和 StringField等
doc.add(new TextField("content", text,Field.Store.YES));
iwriter.addDocument(doc);
}
索引删除
索引删除包括只删除索引下面的document和删除索引文件
在IndexWriter有如下一些方法
- deleteAll() 删除索引中所有的documents
- deleteDocuments(Query… queries) 按照提供的Query 删除documents
- deleteDocuments(Term… terms) 按照短语删除documents
- deleteUnusedFiles() 删除所有不再使用index的文件
- forceMergeDeletes() 删除处于已经删除的状态documents,由此可见,之前的删除文档的方法并没有真正的删除掉的documents,只是标记删除,我个人理解是类似逻辑上的删除
- forceMergeDeletes(boolean doWait) 删除过程中指明是否阻塞,直到操作完成
索引更新
更新操作也是一样,查看文档就有,这里截个图:
索引查询
Query
索引查询的时候可以使用Query的实现子类来创建查询,执行IndexSearcher的search方法来查询,也可以使用QueryParse类来构造查询.
分页
- 方式1:在scoreDoc中进行分页,数据一次性查出来,在结果集分页,结果集较大时容易溢出
- 方式2:使用searcheAfter,等价查询的次数,但是不会出现查询结果溢出,推荐,类似数据库中的分页查询
这个类似数据库中的查询,可以对结果集分页显示,类似方式一,查询的时候直接分页,类似方式二 。
索引操作实例
package lucene_demo03;
import java.io.IOException;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
/**
*
* 关于索引的查询(分页查询) 方式1:在scoreDoc中进行分页,数据一次性查出来,在结果集分页,结果集较大时容易溢出
* 方式2:使用searcheAfter,等价查询的次数,但是不会出现查询结果溢出,推荐,类似数据库中的分页查询
*
* @author YipFun
*/
public class LuceneDemo03
{
private static final Version version = Version.LUCENE_4_9;
private Directory directory = null;
private DirectoryReader ireader = null;
private IndexWriter iwriter = null;
// 测试数据
private String[] content = { "hello lucene", "I love coding", "I can play basketball", "I can play football", "I can play dota" };
/**
* 构造方法
*/
public LuceneDemo03()
{
directory = new RAMDirectory();
}
/**
* 创建索引
*/
public void createIndex()
{
Document doc = null;
try
{
iwriter = new IndexWriter(directory, new IndexWriterConfig(version, new StandardAnalyzer(version)));
for (String text : content)
{
doc = new Document();
// 使用的field 有很多类型,理解他们的区别 例如:TextField 和 StringField
doc.add(new TextField("content", text, Field.Store.YES));
iwriter.addDocument(doc);
}
} catch (IOException e)
{
e.printStackTrace();
} finally
{
try
{
if (iwriter != null)
iwriter.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
}
public IndexSearcher getSearcher()
{
try
{
if (ireader == null)
{
ireader = DirectoryReader.open(directory);
} else
{
DirectoryReader tr = DirectoryReader.openIfChanged(ireader);
if (tr != null)
{
ireader.close();
ireader = tr;
}
}
return new IndexSearcher(ireader);
} catch (CorruptIndexException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
}
return null;
}
/**
*
* @param field
* @param term
* @param num
*/
public void searchByTerm(String field, String term, int num)
{
IndexSearcher isearcher = getSearcher();
// 注意query的实现类和QueryParse的用法的区别
TermQuery query = new TermQuery(new Term(field, term));
ScoreDoc[] hits;
try
{
// 注意searcher的几个方法
hits = isearcher.search(query, null, num).scoreDocs;
// Iterate through the results:
for (int i = 0; i < hits.length; i++)
{
Document hitDoc = isearcher.doc(hits[i].doc);
System.out.println("This is the text to be indexed=" + hitDoc.get("content"));
}
} catch (IOException e)
{
e.printStackTrace();
}
}
/**
* 区别与上一种查询,使用QueryParser的parse方法构造一个Query传递给方式使用
*
* @param query
* @param num
*/
public void searchByQueryParse(Query query, int num)
{
try
{
IndexSearcher searcher = getSearcher();
TopDocs tds = searcher.search(query, num);
System.out.println("一共查询了:" + tds.totalHits);
for (ScoreDoc sd : tds.scoreDocs)
{
Document doc = searcher.doc(sd.doc);
System.out.println("This is the text to be indexed=" + doc.get("content"));
}
} catch (CorruptIndexException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
}
}
/**
* 第一中分页方式,对ScoreDoc进行分页
*
* @param query
* @param pageIndex
* 从1开始,即第一页
* @param pageSize
* 分页大小
* @param num
* search top n hits
*/
public void searchForPage(Query query, int pageIndex, int pageSize, int num)
{
try
{
IndexSearcher searcher = getSearcher();
TopDocs tds = searcher.search(query, num);
System.out.println("一共查询了:" + tds.totalHits);
// 对ScoreDoc分页
int start = (pageIndex - 1) * pageSize;
int end = pageIndex * pageSize;
ScoreDoc scoreDocs[] = tds.scoreDocs;
for (int i = start; i < end; i++)
{
Document doc = searcher.doc(scoreDocs[i].doc);
System.out.println("This is the text to be indexed=" + doc.get("content"));
}
} catch (CorruptIndexException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
}
}
/**
* 使用searchAfter 实现在查询的时候的分页
*
* @param query
* @param pageIndex
* @param pageSize
* @throws IOException
*/
public void searchForPageByAfter(Query query, int pageIndex, int pageSize) throws IOException
{
IndexSearcher searcher = getSearcher();
// 先获取上一页的最后一个元素
ScoreDoc lastSd = getLastScoreDoc(pageIndex, pageSize, query, searcher);
TopDocs tds = searcher.searchAfter(lastSd, query, pageSize);
for (ScoreDoc sd : tds.scoreDocs)
{
Document doc = searcher.doc(sd.doc);
System.out.println("This is the text to be indexed=" + doc.get("content"));
}
}
/**
* 返回分页查询的上一条
*
* @param pageIndex
* @param pageSize
* @param query
* @param indexSearcher
* @return
*/
private ScoreDoc getLastScoreDoc(int pageIndex, int pageSize, Query query, IndexSearcher searcher)
{
if (pageIndex == 1)
return null;// 如果是第一页就返回空
int num = pageSize * (pageIndex - 1);// 获取上一页的数量
TopDocs tds = null;
try
{
tds = searcher.search(query, num);
} catch (IOException e)
{
e.printStackTrace();
}
return tds.scoreDocs[num - 1];
}
public static void main(String[] args) throws ParseException, IOException
{
LuceneDemo03 ld = new LuceneDemo03();
ld.createIndex();
ld.searchByTerm("content", "play", 500);
System.out.println("==============1======================");
QueryParser parser = new QueryParser(version, "content", new StandardAnalyzer(version));
Query q = parser.parse("play");// 研究下parse的语法
ld.searchByQueryParse(q, 500);
System.out.println("===============2=====================");
ld.searchForPage(q, 1, 2, 500);// 从第一页开始
System.out.println("================3====================");
ld.searchForPageByAfter(q, 1, 2);// 从第一页开始
System.out.println("================4====================");
}
}
Lucene基础(二)--索引的操作的更多相关文章
- 基础DOM和CSS操作(二)
元素样式操作 元素样式操作包括了直接设置CSS样式.增加CSS类别.类别切换.删除类别这几种操作方法.而在整个jQuery使用频率上来看,CSS样式的操作也是极高的,所以需要重点掌握. CSS操作方法 ...
- 01 lucene基础 北风网项目培训 Lucene实践课程 索引
在创建索引的过程中IndexWriter会创建多个对应的Segment,这个Segment就是对应一个实体的索引段.随着索引的创建,Segment会慢慢的变大.为了提高索引的效率,IndexWrite ...
- oracle 基础知识(十二)----索引
一, 索引介绍 索引与表一样,也属于段(segment)的一种.里面存放了用户的数据,跟表一样需要占用磁盘空间.索引是一种允许直接访问数据表中某一数据行的树型结构,为了提高查询效率而引入,是一个独立于 ...
- day 70 Django基础五之django模型层(二)多表操作
Django基础五之django模型层(二)多表操作 本节目录 一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询.分组查询.F查询和Q查询 六 ORM ...
- day 56 Django基础五之django模型层(二)多表操作
Django基础五之django模型层(二)多表操作 本节目录 一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询.分组查询.F查询和Q查询 六 ORM ...
- Lucene基础(2)
上一篇:Lucene基础(1) 一.Lucene术语 Document, Field, Term, Query, Analyzer相信在其中大多数在之前已经理解了...对其中部分概念详细说明 Docu ...
- Lucene基础(1)
下一篇: Lucene基础(2) 一.Lucene介绍 http://www.kailing.pub/index/columns/colid/16.html Documentation:http:// ...
- Python全栈开发【基础二】
Python全栈开发[基础二] 本节内容: Python 运算符(算术运算.比较运算.赋值运算.逻辑运算.成员运算) 基本数据类型(数字.布尔值.字符串.列表.元组.字典) 其他(编码,range,f ...
- Python array,list,dataframe索引切片操作 2016年07月19日——智浪文档
array,list,dataframe索引切片操作 2016年07月19日——智浪文档 list,一维,二维array,datafrme,loc.iloc.ix的简单探讨 Numpy数组的索引和切片 ...
随机推荐
- 第一个js程序
<html><head> <title>Untitled</title> <script >function demo(){ alert ( ...
- 简洁判断一个byte中有多少位为1的bit?
以下是Brian W. Kernighan公开的一个方法 unsigned bit_count(unsigned v) { unsigned int c; //置位总数累计 ; v; c++) { v ...
- Spring在Web项目中的三种启动加载的配置
在最近的项目中,使用到了spring相关的很多东西,有点把spring的配置给搞混了,从网上查到的资料以及整理了一下. 在Web项目中,启动spring容器的方式有三种,ContextLoaderLi ...
- Android版本控制系统及其间的差异
一.何谓版本控制 它是一种软件工程籍以在开发的过程中,确保由不同人所编辑的同一档案都得到更新,它透过文档控制记录程序各个模块的改动,并为每次改动编上序号,并且编辑错误之后还可以回溯到以前的版本 二.可 ...
- c++中静态成员变量 静态成员函数 全局变量与静态函数的关系 字符串中括号的匹配编程 (笔试经历)
笔试经历 1 类中的静态变量不能通过构造函数参数列表来初始化,因为静态变量不属于哪个对象.同时静态变量在不初始化的情况下系统会自动为变量赋值,数值型赋值为零,字符型赋值为空. 非静态变量只有在定义时才 ...
- 基于动态库的C++插件开发模型
基类为抽象类,在不同的动态库中实现不同的执行行为,但是每个动态库要提供2个统一的方法:1) baseClass * create(); 2) void destroy( baseClass* );,调 ...
- big data vs HPC
When I tried some SIMD optimization in large-scale simulation(HPC), it is so difficult to implment. ...
- HTTPS协议学习总结
目录 一:什么是HTTPS协议?二:客户端与服务端如何建立HTTPS协议连接?三:证书.加密协议.信息摘要.签名算法概念解释与关系梳理四:低版本操作系统作为客户端发送HTTPS失败分析五:参考资料 ...
- 【转】java.util.vector中的vector的详细用法
[转]java.util.vector中的vector的详细用法 ArrayList会比Vector快,他是非同步的,如果设计涉及到多线程,还是用Vector比较好一些 import java.uti ...
- 利用FSO取得BMP,JPG,PNG,GIF文件信息(大小,宽、高等)
利用FSO取得BMP,JPG,PNG,GIF文件信息(大小,宽.高等) 程序代码 <% ':::BMP, GIF, JPG and PNG ':::This function gets a sp ...