Lucene的基本概念----转载yufenfei的文章

Lucene的基本概念

Lucene是什么？

Lucene是一款高性能、可扩展的信息检索工具库。信息检索是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。

信息检索流程如下：

1、将即将检索的资源集合放到本地，并使用某种特定的结构存储，称为索引，这个索引的集合称为索引库。由于索引库的结构按照专门为快速查询设计的，所以查询的速度非常的快；

2、搜索操作时都是在本地的索引库中进行查找；

所以对于全文检索功能的开发，要做两方面：索引库管理（维护索引库中的数据）、在索引库中进行搜索。而Lucene就是操作索引库的工具；

索引库是什么样子？

索引库是一个目录，里面是一些二级制文件，就如同数据库，所有的数据也是以文件的形式存放在文件系统中的。我们不能直接操作这些二级制文件，而是使用Lucene提供的API完成相应的操作，就像数据库使用SQL语句一样。

对索引库的操作可以分为两种：管理与查询。

1、管理索引库使用的IndexWriter；

2、从索引库中查询使用IndexSearcher。

Lucene的数据结构为 Document与Field。

Document代表是一条数据，Field代表数据中的一个属性。一个Document中有多个Field，Field的值为String型，因为Lucene只处理文本；

我们只需要把我们的程序中的对象转换为Doucemnt，就可以交给Lucene管理了，搜索的结果中的数据列表也是Document的集合；

OK，我们来做一个实例，还原一下整个流程

1、创建一个用户类，用于实例化用户数据

public class User {
private Long id;
private String name;
private int age;
private String sex;
private Date birthday;
public User(Long id, String name, int age, String sex, Date birthday) {
super();
this.id = id;
this.name = name;
this.age = age;
this.sex = sex;
this.birthday = birthday;
}
//get/set方法，这里省略
}

public class User {

	private Long id;

	private String name;

	private int age;

	private String sex;

	private Date birthday;

	public User(Long id, String name, int age, String sex, Date birthday) {

		super();

		this.id = id;

		this.name = name;

		this.age = age;

		this.sex = sex;

		this.birthday = birthday;

	}

   //get/set方法，这里省略

}

2、生成即将检索的资源数据

public class DataUtil {
/**
* 检索资源数据的准备；
* 这里的数据可以来源数据库、文件系统等
* @return
*/
public static List<User> getUsers(){
List<User> list =new ArrayList<User>();
User user =new User(1L,"张三1",,"man",new Date());
list.add(user);
user =new User(2L,"张三2",,"man",new Date());
list.add(user);
user =new User(3L,"张三3",,"woman",new Date());
list.add(user);
user =new User(4L,"张三4",,"man",new Date());
list.add(user);
user =new User(5L,"张三5",,"man",new Date());
list.add(user);
user =new User(6L,"张三6",,"woman",new Date());
list.add(user);
return list;
}
}

public class DataUtil {

	/**

	 * 检索资源数据的准备；

	 *   这里的数据可以来源数据库、文件系统等

	 * @return

	 */

	public static List<User> getUsers(){

		List<User> list =new ArrayList<User>();

		User user =new User(1L,"张三1",20,"man",new Date());

		list.add(user);

		user =new User(2L,"张三2",20,"man",new Date());

		list.add(user);

		user =new User(3L,"张三3",20,"woman",new Date());

		list.add(user);

		user =new User(4L,"张三4",20,"man",new Date());

		list.add(user);

		user =new User(5L,"张三5",20,"man",new Date());

		list.add(user);

		user =new User(6L,"张三6",20,"woman",new Date());

		list.add(user);

		return list;

	}

}

3、Lucene创建索引库及查询

public class IndexWriterDemo {
/**
* 将即将检索的资源写入索引库
* @param writer
* @throws Exception
*/
public void buildDocs(IndexWriter writer)throws Exception {
writer.deleteAll();//清空索引库里已存在的文档（document）
List<User> list = DataUtil.getUsers();//得到数据资源
System.out.println("buildDocs()->总人数为 :"+list.size());
for(User user :list){
Document doc = new Document();//创建索引库的文档
doc.add(new Field("id",String.valueOf(user.getId()),Store.YES,Index.NO));
doc.add(new Field("name",user.getName(),Store.YES,Index.ANALYZED));
doc.add(new Field("age",String.valueOf(user.getAge()),Store.YES,Index.ANALYZED));
doc.add(new Field("sex",user.getSex(),Store.YES,Index.ANALYZED));
doc.add(new Field("birthday",String.valueOf(user.getBirthday()),Store.YES,Index.ANALYZED));
writer.addDocument(doc);//将文档写入索引库
}
int count =writer.numDocs();
writer.forceMerge();//合并索引库文件
writer.close();
System.out.println("buildDocs()->存入索引库的数量："+count);
}
/**
* 从索引库中搜索你要查询的数据
* @param searcher
* @throws IOException
*/
public void searcherDocs(IndexSearcher searcher) throws IOException{
Term term =new Term("sex", "man");//查询条件，意思是我要查找性别为“man”的人
TermQuery query =new TermQuery(term);
TopDocs docs =searcher.search(query, );//查找
System.out.println("searcherDoc()->男生人数："+docs.totalHits);
for(ScoreDoc doc:docs.scoreDocs){//获取查找的文档的属性数据
int docID=doc.doc;
Document document =searcher.doc(docID);
String str="ID:"+document.get("id")+",姓名："+document.get("name")+"，性别："+document.get("sex");
System.out.println("人员信息:"+str);
}
}
}

public class IndexWriterDemo {

	/**

	 * 将即将检索的资源写入索引库

	 * @param writer

	 * @throws Exception

	 */

	public void buildDocs(IndexWriter writer)throws Exception {

		writer.deleteAll();//清空索引库里已存在的文档（document）

		List<User> list = DataUtil.getUsers();//得到数据资源

		System.out.println("buildDocs()->总人数为 :"+list.size());

		for(User user :list){

			Document doc = new Document();//创建索引库的文档

			doc.add(new Field("id",String.valueOf(user.getId()),Store.YES,Index.NO));

			doc.add(new Field("name",user.getName(),Store.YES,Index.ANALYZED));

			doc.add(new Field("age",String.valueOf(user.getAge()),Store.YES,Index.ANALYZED));

			doc.add(new Field("sex",user.getSex(),Store.YES,Index.ANALYZED));

			doc.add(new Field("birthday",String.valueOf(user.getBirthday()),Store.YES,Index.ANALYZED));

			writer.addDocument(doc);//将文档写入索引库

		}

		int count =writer.numDocs();

		writer.forceMerge(100);//合并索引库文件

		writer.close();

		System.out.println("buildDocs()->存入索引库的数量："+count);

	}

	/**

	 * 从索引库中搜索你要查询的数据

	 * @param searcher

	 * @throws IOException

	 */

	public void searcherDocs(IndexSearcher searcher) throws IOException{

		Term term =new Term("sex", "man");//查询条件，意思是我要查找性别为“man”的人

		TermQuery query =new TermQuery(term);

		TopDocs docs =searcher.search(query, 100);//查找

		System.out.println("searcherDoc()->男生人数："+docs.totalHits);

		for(ScoreDoc doc:docs.scoreDocs){//获取查找的文档的属性数据

			int docID=doc.doc;

			Document document =searcher.doc(docID);

			String str="ID:"+document.get("id")+",姓名："+document.get("name")+"，性别："+document.get("sex");

			System.out.println("人员信息:"+str);

		}

	}

  }

4、测试

public class TestIndexWriterRAMDirectory {
private IndexWriter writer=null;
private Directory directory=null;
private IndexReader reader = null;
private IndexSearcher searcher=null;
private IndexWriterDemo demo =new IndexWriterDemo();
@Before
public void setUp() throws Exception {
directory = new RAMDirectory();
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36,new SimpleAnalyzer(Version.LUCENE_36));
writer = new IndexWriter(directory,config);
}
@Test
public void testAddDoc()throws Exception {
/**生成索引库*/
demo.buildDocs(writer);
/**查询数据*/
reader = IndexReader.open(directory);
searcher =new IndexSearcher(reader);
demo.searcherDocs(searcher);
}
}

public class TestIndexWriterRAMDirectory {

	private IndexWriter writer=null;

	private Directory directory=null;

	private IndexReader reader = null;

	private IndexSearcher searcher=null;

	private IndexWriterDemo demo =new IndexWriterDemo();

	@Before

	public void setUp() throws Exception {

		directory = new RAMDirectory();

		IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_36,new SimpleAnalyzer(Version.LUCENE_36));

		writer = new IndexWriter(directory,config);

	}

	@Test

	public void testAddDoc()throws Exception {

		/**生成索引库*/

		demo.buildDocs(writer);

		/**查询数据*/

		reader = IndexReader.open(directory);

		searcher =new IndexSearcher(reader);

		demo.searcherDocs(searcher);

	}

}

测试结果

buildDocs()->总人数为 :
buildDocs()->存入索引库的数量：
searcherDoc()->男生人数：
人员信息:ID:,姓名：张三，性别：man
人员信息:ID:,姓名：张三，性别：man
人员信息:ID:,姓名：张三，性别：man
人员信息:ID:,姓名：张三，性别：man

buildDocs()->总人数为 :6

buildDocs()->存入索引库的数量：6

searcherDoc()->男生人数：4

人员信息:ID:1,姓名：张三1，性别：man

人员信息:ID:2,姓名：张三2，性别：man

人员信息:ID:4,姓名：张三4，性别：man

人员信息:ID:5,姓名：张三5，性别：man

OK，代码完毕

实例的Lucene版本为：lucene-3.6.1

在这再次说下Lucene检索的整个流程（请参考demo的代码）

1、建立索引的执行过程

在建立索引时，先要把文档存到索引库中，还要更新词汇表。

操作步骤如下：

（1）、把数据对象转换成相应的Document，其中的属性转为Field；

（2）、调用工具IndexWriter的addDocument(doc)，把Document添加到索引库中；

（3）、Lucene做的操作：

把文档存到索引库中，并自动指定一个内部编号，用来唯一标识这个条数据；内部编号类似与这条数据的地址，在索引库内部的数据进行调整后，这个编号就可能会改变，同时词汇表中的引用的编号也会做相应的改变，以保证正确。

更新词汇表。把文本中的词找出来放到词汇表中，简历与文档的对应关系。要把那些词放到词汇表中呢？这就用到一个叫Analyzer（分词器）的工具。他的作用是把一段文本中的词按照规则取出所包含的所有词。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由其子类实现。

在把对象的属性转化为 Field时，相关代码为：

doc.add(new Field(“title”,article.getTitle(), Store.YES, Index.Analyzed))

其中第三个参数的意思为

Store.NO 不存储属性的值；

Store.YES 存储属性的值

第四个参数

Index.NO 不建立索引

Index.ANALYZED 分词后建立索引

Index.NOT_ANALYZED 不分词，把整个内容作为一个词建立索引

Store是影响搜索出的结构是否有指定属性的原始内容。

Index是影响是否可以从这个属性中查询，或者是查询时可以查其中的某些词，还是要把整个内容作为一个词进行查询。

2、从索引库中搜索的执行过程（QueryParse、TopDocs、ScoreDoc）

在进行搜索时，先在词汇表中查找，得到符合条件的文档编号列表。再根据文档编号真正的取数据（Document）

操作步骤如下：

（1）、把要查询字符串转为Query对象。这就像在Hiberante总是用HQL查询时，也要先调用Session.createQuery(hql)转成Hibernate的Query对象一样。把查询字符串转换成Query是使用QueryParser，或者使用MultiFieldQueryParser。查询字符串也要先经过Analyzer（分词器）。要求检索时使用Analyzer要与监理索引使用的Analzyer要一致，否则可能搜索不出正确的结果。

（2）、调用IndexSearcher.search()，进行查询，得到结果。此方法返回未TopDocs，是包含结果的多个信息的一个对象。其中有totalHits代表记录数，ScoreDoc的数组。ScoreDoc是代表一个结果的相关度得分与文档编号等信息的对象。

（3）、取出要用到的数据列表。调用IndexSearcher.doc(scoreDoc.doc)以取出指定编号对应的Document数据，在分页时要用到：一次只取一页的数据。

lucene.rar

Lucene的基本概念----转载yufenfei的文章的更多相关文章

Lucene入门教程（转载）
http://blog.csdn.net/tianlincao/article/details/6867127 Lucene教程 1 lucene简介 1.1 什么是lucene Lucene ...
Lucene解析 - 基本概念
Elasticsearch 权威指南中文版 https://www.elastic.co/guide/cn/elasticsearch/guide/cn/index.html 对于跳跃表,我们看 ...
转载一篇文章：LINQ TO SQL 大全
https://www.cnblogs.com/chenwolong/p/lts.html 最近悟出来一个道理,在这儿分享给大家:学历代表你的过去,能力代表你的现在,学习代表你的将来. 十年河东十年河 ...
csdn如何转载别人的文章
1.找到要转载的文章,用chrome浏览器打开,右键选择审查元素 2.在chrome中下方的框里找到对应的内容,html脚本中找到对应的节点,选中节点,网页上被选中内容会被高亮显示,然后右键菜单选中 ...
Lucene原理之概念
概念: 数据分两种: 1.结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 2.非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等.(半结构化数据:如XML,HTML等, ...
（转）如何转载CSDN的文章
前言对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间 ...
ELK：kibana使用的lucene查询语法【转载】
kibana在ELK阵营中用来查询展示数据 elasticsearch构建在Lucene之上,过滤器语法和Lucene相同全文搜索在搜索栏输入login,会返回所有字段值中包含login的文档使 ...
浅析Oracle范式的概念(转载)
范式:英文名称是 Normal Form,它是英国人 E.F.Codd(关系数据库的老祖宗)在上个世纪70年代提出关系数据库模型后总结出来的,范式是关系数据库理论的基础,也是我们在设计数据库结构过程中 ...
javascript 中caller,callee,call,apply 的概念[转载]
在提到上述的概念之前,首先想说说javascript中函数的隐含参数:arguments Arguments : 该对象代表正在执行的函数和调用它的函数的参数. [function.]argument ...

随机推荐

学习FPGA需要做哪些
有些人比较差,做了一些介绍,有误导成分.有些人水平太高,介绍的很好,但是很多人依旧听不懂,得到的肯定很少.学习FPGA,在不同层次的人明显有不同的答案. 熟悉硬件描述语言语法,不需要什么都会,但是要记 ...
oracle11.2 安装
win10安装oracle 11g 时出现INS-13001环境不满足最低要求 oracle在win10上安装教程
VC散列表
vc下有2个版本的散列表类,hash_map和unordered_map,hash_map位于stdext命名空间,unordered_map在std命名空间(vs2008及其之后的版本可用),官方推 ...
CGI/MIME/servlet术语解释
CGI→一种协议, 一种标准, 一种规范使用CGI协议, 能够让用户访问某些动态资源的时候, 触发web服务器, 让web服务器根据CGI协议能够调用外部(web服务器外部)的程序来执行处理这个动态 ...
2014.8.25 VS新建项目模板消失解决方法
Vs2005 新建项目时windows应用程序模板消失问题解决方法: 1:进入C:\Program Files (x86)\Microsoft Visual Studio 8\Common7\IDE\ ...
flask系列二之基础知识
一.调试模式(debug模式) 1.设置debug模式在app.run()中传入关键字参数debug,app.run(debug=Ture),就设置当前项目为debug模式.如下所示: # 从fla ...
Hibernate4.3.5搭建Log4j日志环境
本文记录Hibernate4.3.5搭建Log4j日志环境的过程 1.搞清楚Hibernate4.3.5的日志环境依赖方法:查看帮助文档 3.5. Logging Important Complet ...
JAVA中跨平台分隔符
在Windows下的路径分隔符和Linux下的路径分隔符是不一样的,当直接使用绝对路径时,跨平台会暴出“No such file or diretory”的异常. 比如说要在temp目录下建立一个te ...
jenkins 学习记录2
主题在之前的学习中(http://www.cnblogs.com/abcwt112/p/6274575.html)我已经学会怎么打包了..这篇文章记录分享我学习如何利用jenkins将打完的包发布到 ...
12个有趣的c语言面试题 
1.gets()函数问:请找出下面代码里的问题: #include int main(void) { char buff[10]; memset(buff,0,sizeof(buff)); gets ...

Lucene的基本概念----转载yufenfei的文章

Lucene的基本概念----转载yufenfei的文章的更多相关文章

随机推荐

热门专题