Lucene是一个高效的,基于Java的全文检索库[1].所以在介绍Lucene的检索功能之前,我们要先了解一下全文检索以及Lucene的索引结构. 一.全文检索的基本原理 1. 数据的分类 什么是全文检索呢,这要从我们生活中的数据说起.我们生活中的数据可以分为三种: 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等,也要做全文数据. 半结构化数据:XML,HTML等,当根据需要可按结构化数据来处理,也可抽取出纯文…