《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索

第一章节是介绍性质，但是通过这一章节的学习，我理解到如下概念：

1.Lucene由两部分组成：索引和搜索。索引是通过对原始数据的解析，形成索引的过程；而搜索则是针对用户输入的查找要求，从索引中找到匹配的内容，并表示出来。

2.索引组件的工作顺序是：原始内容--->获取内容（比如利用网络爬虫，这时取得的还是原始内容，只不过是自己想要的原始内容）--->建立文档（这里就是lucene的索引组件真正开始工作的地方了，解析内容变成lucene自己的document）--->文档分析（利用lucene的各种分析器,analyzer，将文档解析为各种语汇单元）--->形成文档索引（IndexWriter，存储在Directory中）

3.搜索组件的工作顺序是：从用户搜索界面获得用户搜索请求--->建立查询（这是lucene的搜索组件开始工作的地方，建立Query）--->搜索查询（利用indexSearcher，使用Query，在索引所在的Directory中进行搜索处理，并获得匹配的结果topdocs）--->展现结果（用直观的，客户喜欢接受的方式，展现给用户）

4.索引过程的核心类：

IndexWriter：写索引，用于创建新索引或者打开已有索引

Directory：索引的存储位置。这是一个抽象类，因此实际使用的是其子类：FSDirectory（文件系统，存储在非易失设备中）, RAMDirectory（内存中）

Analyzer：分析器，从被索引的对象（文档）中提取语汇单元。如果被索引的对象不是纯文本，则先转换成文本文档。分析器的分析对象是文档（Document）。Analyzer也是一个抽象类，实际使用的是其子类。

Document：文档。lucene将原始内容转换成lucene自己能识别的对象，就是这里的Document。Document由各个Field组成，可以认为Document就是包含多个Field对象的容器。

Field：域，由域名和域值组成，还有记录此域如何被存储（store），如何被索引(index)的选项。一个域名可以带多个域值。

5.搜索的核心类

IndexSearcher:可以理解为和IndexWriter是对应的。它是用来搜索由IndexWriter代表的索引的。实际搜索就是调用IndexSearcher对象的search(query对象,要返回的评分最高的文档数量n)方法

Term:字面意思就是术语，它是搜索功能的基本单元，和Field类似，也由域名和域值组成。我是这么理解的：Field和Term的组成相同（至少相似吧）。Field用于索引；而Term用于搜索

Query:查询类，也是一个抽象类，实际用的是其多个子类。Query子类对象的产生方式，目前我总结有两种：一种是通过QueryParser对象的parse(用户输入的查询方式字符串)方式得到；另一种是通过new TermQuery(new Term(域名字符串,域值字符串))来得到。

TermQuery:书上说是lucene提供的最基本的查询类型。用来匹配指定域中包含特定值的文档。不过我目前理解，它就是从term得到query的中间转换的桥梁。

TopDocs:IndexSearcher对象调用search(query对象,要返回的评分最高的文档数量n)方法后的返回值。通过这个对象，可以获得totalHits（匹配搜索条件的实际文档数量），scoreDocs（一个包括搜索结果的scoreDoc对象数组，通过组元素又可以得到具体文档）以及其他参数。

6.我自己认为：还有一个类也是比较核心的，就是IndexReader

《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索的更多相关文章

《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析
通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就 ...
《Lucene in Action 第二版》第三章节的学习总结----IndexSearcher以及Term和QueryParser
本章节告诉我们怎么用搜索.通过这章节的学习,虽然搜索的内部原理不清楚,但是至少应该学会简单的编写搜索程序了本章节,需要掌握如下几个主要API1.IndexSearcher类:搜索索引的门户,发起者. ...
《Lucene in Action第二版》学习总结---如何在Windows下编译luceneinAction2Edition源码包
1. 下载此源码包,位置是: www.manning.com/hatcher3,得到:lia2e.tar.gz,然后解压缩得到目录:lia2e,为了以后能辨识,我将此目录改名为:luceneinAct ...
lucene简介创建索引和搜索初步
lucene简介创建索引和搜索初步一.什么是Lucene? Lucene最初是由Doug Cutting开发的,2000年3月,发布第一个版本,是一个全文检索引擎的架构,提供了完整的查询引擎和索引 ...
Lucene.net 从创建索引到搜索的代码范例
关于Lucene.Net的介绍网上已经很多了在这里就不多介绍Lucene.Net主要分为建立索引,维护索引和搜索索引Field.Store的作用是通过全文检查就能返回对应的内容,而不必再通过id去DB ...
《TomCat与Java Web开发技术详解》（第二版）第一章节的学习总结--HTTP组成+基本访问方式
1.需要看懂HTML文件中的组成元素的基本含义.不同的组成元素,可以使得HTML支持文本,图片(img,将图片发给客户端),静态音频/视频(embed src,将音频视频发给客户端),超链接(href ...
lucene实战（第二版）学习笔记
初识Lucene 构建索引为应用程序添加搜索功能 Lucene的分析过程
python基础教程第二版第一章
1.模块导入python以增强其功能的扩展:三种方式实现 (1). >>> Import math >>> math.floor(32.9) 32.0 #按照模块 ...
《HBase in Action》第一章节的学习总结 ---- HBase是个啥
1.HBase模仿了Google的BigTable,是一种开源的,面向列族的数据库.它基于行键(rowkey),列键(column key)和时间戳(TimeStamp)来建立索引.HBase是建立在 ...

随机推荐

网络监控工具ntopng
网络监控工具ntopng ntopng是Kali提供的一个网络监控软件,用于显示当前网络的使用情况.它能列出当前使用网络的主机,并且显示每台主机发送和接受的数据包.同时,它提供强大的数据处理功能, ...
[Contest20180418]物理竞赛
题意:在一个三维空间中有一个轴,轴上有一个垂直于轴的半径为$R$的凸透镜(光心在轴上)和$n$个点光源,假设每个点光源发出的$1$单位光都刚好覆盖凸透镜,现在有一个半径为$r$的圆形光屏,问光屏最多能 ...
[LOJ6280]数列分块入门 4
题目大意: 给你一个长度为$n(n\leq50000)$的序列$A$,支持进行以下两种操作: 1.将区间$[l,r]$中所有数加上$c$: 2.询问区间$[l,r]$在模$c+1$意义下的和.思路: ...
Linux下分区、格式化、自动挂载
说明:现在硬盘基本没有了IDE,所以基本是从SCSI开始说起,第一块硬盘标示为sda,第二块为sdb,以此类推.那么第一块硬盘的第一个分区为sda1,也是以此类推. 一.硬盘分区 sudo fdisk ...
service mysqld start 报错：service mysqld start 报错 090517 13:34:15 [ERROR] Can't open the mysql.plugin table. Please run mysql_upgrade to create it. 090Can't open the mysql.plugin table. Please run mysql
service mysqld start 报错 090517 13:34:15 [ERROR] Can't open the mysql.plugin table. Please run mysql_ ...
【转】matlab 字符串处理函数
原文地址 matlab 字符串处理函数 % 字符串处理 a=' a';b='b b';c='cccc';m='' % 获取字符串长度 length(a) % 连接两个字符串,每个字符串最右 ...
python3使用configparser解析配置文件
http://www.jb51.net/article/87402.htm 需要注意的是每一个字段后面的值外面没有引号,切记,自己第一次配置时,加了引号,搞了半天没找到错误,, 在用Python做开 ...
hive参数——深入浅出学Hive
第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.d ...
Hibernate中cascade和inverse的作用
Inverse和cascade是Hibernate映射中最难掌握的两个属性.两者都在对象的关联操作中发挥作用.1．明确inverse和cascade的作用inverse 决定是否把对对象中集合的改动反 ...
JWT笔记(2)
上文对JWT模块进行了一个简单的分析．这篇文章稍微做出一些深入的了解．一,Header篡改攻击因为JWT的Header是强制有效并且是明文传输(Base64URL编码,几乎等同于明文)．那么恶意用 ...

《Lucene in Action》（第二版） 第一章节的学习总结 ---- 用最少的代码创建索引和搜索

《Lucene in Action》（第二版） 第一章节的学习总结 ---- 用最少的代码创建索引和搜索的更多相关文章

随机推荐

热门专题

《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索

《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索的更多相关文章