lucene 基本原理整理

基本原理：http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html

所有过程：http://www.cnblogs.com/forfuture1978/archive/2010/06/13/1757479.html

1.什么是索引，为什么需要索引

对非结构化数据也即对全文数据的搜索主要有两种方法：

一种是顺序扫描法(Serial Scanning)：所谓顺序扫描，比如要找内容包含某一个字符串的文件，就是一个文档一个文档的看，对于每一个文档，从头看到尾，如果此文档包含此字符串，则此文档为我们要找的文件，接着看下一个文件，直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容，只是相当的慢。如果你有一个80G硬盘，如果想在上面找到一个内容包含某字符串的文件，不花他几个小时，怕是做不到。Linux下的grep命令也是这一种方式。大家可能觉得这种方法比较原始，但对于小数据量的文件，这种方法还是最直接，最方便的。但是对于大量的文件，这种方法就很慢了。

有人可能会说，对非结构化数据顺序扫描很慢，对结构化数据的搜索却相对较快（由于结构化数据有一定的结构可以采取一定的搜索算法加快速度），那么把我们的非结构化数据想办法弄得有一定结构不就行了吗？

这种想法很天然，却构成了全文检索的基本思路，也即将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。

这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

这种说法比较抽象，举几个例子就很容易明白，比如字典，字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释

2.索引包含哪些东西

首先我们来看为什么顺序扫描的速度慢：

其实是由于我们想要搜索的信息和非结构化数据中所存储的信息不一致造成的。

非结构化数据中所存储的信息是每个文件包含哪些字符串，也即已知文件，欲求字符串相对容易，也即是从文件到字符串的映射。而我们想搜索的信息是哪些文件包含此字符串，也即已知字符串，欲求文件，也即从字符串到文件的映射。两者恰恰相反。于是如果索引总能够保存从字符串到文件的映射，则会大大提高搜索速度。

由于从字符串到文件的映射是文件到字符串映射的反向过程，于是保存这种信息的索引称为反向索引。

左边保存的是一系列字符串，称为词典。每个字符串都指向包含此字符串的文档(Document)链表，此文档链表称为倒排表(Posting List)。

3.索引的创建过程
第一步：一些要索引的原文档(Document)。
   为了方便说明索引创建过程，这里特意用两个文件为例：
   文件一：Students should be allowed to go out with their friends, but not allowed to drink beer.
   文件二：My friend Jerry went to school to see his students but found them drunk which is not allowed.

第二步：将原文档传给分词组件(Tokenizer)。
    分词组件(Tokenizer)会做以下几件事情(此过程称为Tokenize)：
   1. 将文档分成一个一个单独的单词。
   2. 去除标点符号。
   3. 去除停词(Stop word)。
   所谓停词(Stop word)就是一种语言中最普通的一些单词，由于没有特别的意义，因而大多数情况下不能成为搜索的关键词，因而创建索引时，这种词会被去掉而减少索引的大小。
    英语中挺词(Stop word)如：“the”,“a”，“this”等。
    对于每一种语言的分词组件(Tokenizer)，都有一个停词(stop word)集合。
    经过分词(Tokenizer)后得到的结果称为词元(Token)。
    在我们的例子中，便得到以下词元(Token)：
    “Students”，“allowed”，“go”，“their”，“friends”，“allowed”，“drink”，“beer”，“My”，“friend”，“Jerry”，“went”，“school”，“see”，“his”，“students”，“found”，“them”，“drunk”，“allowed”。

第三步：将得到的词元(Token)传给语言处理组件(Linguistic Processor)。
    语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些同语言相关的处理。
   对于英语，语言处理组件(Linguistic Processor)一般做以下几点：
   1. 变为小写(Lowercase)。
   2. 将单词缩减为词根形式，如“cars”到“car”等。这种操作称为：stemming。
   3. 将单词转变为词根形式，如“drove”到“drive”等。这种操作称为：lemmatization。

   Stemming 和 lemmatization的异同：
    相同之处：Stemming和lemmatization都要使词汇成为词根形式。
    两者的方式不同：
        Stemming采用的是“缩减”的方式：“cars”到“car”，“driving”到“drive”。
        Lemmatization采用的是“转变”的方式：“drove”到“drove”，“driving”到“drive”。
    两者的算法不同：
        Stemming主要是采取某种固定的算法来做这种缩减，如去除“s”，去除“ing”加“e”，将“ational”变为“ate”，将“tional”变为“tion”。
        Lemmatization主要是采用保存某种字典的方式做这种转变。比如字典中有“driving”到“drive”，“drove”到“drive”，“am, is, are”到“be”的映射，做转变时，只要查字典就可以了。
    Stemming和lemmatization不是互斥关系，是有交集的，有的词利用这两种方式都能达到相同的转换。

语言处理组件(linguistic processor)的结果称为词(Term)。
在我们的例子中，经过语言处理，得到的词(Term)如下：
“student”，“allow”，“go”，“their”，“friend”，“allow”，“drink”，“beer”，“my”，“friend”，“jerry”，“go”，“school”，“see”，“his”，“student”，“find”，“them”，“drink”，“allow”。
也正是因为有语言处理的步骤，才能使搜索drove，而drive也能被搜索出来。

第四步：将得到的词(Term)传给索引组件(Indexer)。
1. 利用得到的词(Term)创建一个字典。
2. 对字典按字母顺序进行排序。
3. 合并相同的词(Term)成为文档倒排(Posting List)链表。

4.索引的检索过程

第一步：用户输入查询语句。
   第二步：对查询语句进行词法分析，语法分析，及语言处理。
   1. 词法分析主要用来识别单词和关键字。
   2. 语法分析主要是根据查询语句的语法规则来形成一棵语法树。
   3. 语言处理同索引过程中的语言处理几乎相同。

   第三步：搜索索引，得到符合语法树的文档。
   第四步：根据得到的文档和查询语句的相关性，对结果进行排序。
   1. 计算权重(Term weight)的过程。
   2. 判断Term之间的关系从而得到文档相关性的过程，也即向量空间模型的算法(VSM)。

粗略概括：

1.索引过程
   1) 有一系列被索引文件
   2) 被索引文件经过语法分析和语言处理形成一系列词(Term)。
   3) 经过索引创建形成词典和反向索引表。
   4) 通过索引存储将索引写入硬盘。

2. 搜索过程：
   a) 用户输入查询语句。
   b) 对查询语句经过语法分析和语言分析得到一系列词(Term)。
   c) 通过语法分析得到一个查询树。
   d) 通过索引存储将索引读入到内存。
   e) 利用查询树搜索索引，从而得到每个词(Term)的文档链表，对文档链表进行交，差，并得到结果文档。
   f) 将搜索到的结果文档对查询的相关性进行排序。
   g) 返回查询结果给用户。

lucene 基本原理整理的更多相关文章

lucene基本原理
1.术语 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index):段(Segment):文档(Document):域(Field):词(Term),他们的关系如下 ...
理解Lucene中的Query
Query是一个接口,它有很多实现类. QueryParser是Query解析器,用于将一个字符串解析为一个Query对象,这个Query对象可能属于TermQuery,也可能属于PhraseQuer ...
Lucene整理--索引的建立
看lucene主页(http://lucene.apache.org/)上眼下lucene已经到4.9.0版本号了, 參考学习的书是依照2.1版本号解说的,写的代码样例是用的3.0.2版本号的,版本号 ...
Lucene学习总结：全文检索的基本原理
一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番 ...
lucene 专业名词作用整理
是否切词:对关键词是否切分,举例,姓名域的一个值:"张三" , 是否切分成"张"."三"等等多个term. 是否索引:建立索引的时候是否对该 ...
Lucene 对文档打分的规则整理记录
摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.html Lucene的搜索结果默认按相关度排序,这个相关度排序 ...
lucene 检索流程整理笔记
lucene文件格式待整理
这是之前Lucene3.0生成的索引格式 a表
Lucene学习笔记：一，全文检索的基本原理
一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番 ...

随机推荐

一篇介绍jquery很好的
本文基于jQuery1.7.1版本,是对官方API的整理和总结,完整的官方API见http://api.jquery.com/browser/ 0.总述 jQuery框架提供了很多方法,但大致上可以分 ...
js对象的定义及处理
一,概述在Java语言中,我们可以定义自己的类,并根据这些类创建对象来使用,在Javascript中,我们也可以定义自己的类,例如定义User类.Hashtable类等等. 目前在Javascrip ...
HDU 4417 - Super Mario ( 划分树+二分 / 树状数组+离线处理+离散化)
题意:给一个数组,每次询问输出在区间[L,R]之间小于H的数字的个数. 此题可以使用划分树在线解决. 划分树可以快速查询区间第K小个数字.逆向思考,判断小于H的最大的一个数字是区间第几小数,即是答案. ...
struts2和servlet同时用（访问servlet时被struts2过滤器拦截问题的解决）
在同一个项目中间,如果既用到servlet有用了struts2的框架,运行项目时可能无法正常使用servlet,原因是在配置struts2的核心控制器时<url-pattern>/*< ...
PIT，BL，AP，CP，CSC
使用ODIN刷机的时候,要选择ROM文件,以下是5件套各部分的说明: PIT:分区信息,如果没有更换ROM,一般不需要刷,也不需要勾选re-partition选项 BL:bootloader,引导信息 ...
Mac可设置环境变量的位置、查看和添加PATH环境变量
Mac 启动加载文件位置(可设置环境变量) 首先要知道你使用的 Mac OS X 是什么样的 Shell,使用命令 echo $SHELL 如果输出的是:csh 或者是 tcsh,那么你用的就是 C ...
Linux VPS下SSH常用命令
目录操作:rm -rf mydir /*删除mydir目录,不需要确认,直接删除*/mkdir dirname /*创建名为dirname的目录*/cd mydir /*进入mydir目录*/cd - ...
Java 中空指针处理方法
空指针异常(Null Pointer Exception)是我们平时最容易碰到的,也是最令人讨厌的异常.本文介绍如何避免出现空指针异常. 首先我们看如下的示例: private Boolean isF ...
why we need virtual key word
http://stackoverflow.com/questions/2391679/why-do-we-need-virtual-methods-in-c 简言之,声明基类时,而实际指向派生类.如果 ...
Mysql时间戳函数
1.转换为时间戳 select unix_timestamp('2013-07-15 10-06-07') 如果参数为空,则为当前时间 2.转换为时间 select from_unixtime(tim ...

lucene 基本原理整理

lucene 基本原理整理的更多相关文章

随机推荐

热门专题