Lucene源码解析--Analyzer之Tokenizer

【Lucene源码解析--Analyzer之Tokenizer】的更多相关文章

Lucene源码解析--Analyzer之Tokenizer

Analyzer包含两个核心组件,Tokenizer以及TokenFilter.两者的区别在于,前者在字符级别处理流,而后者则在词语级别处理流.Tokenizer是Analyzer的第一步,其构造函数接收一个Reader作为参数,而TokenFilter则是一个类似的拦截器,其参数可以是TokenStream.Tokenizer. Tokenizer的类结构图: 各类的介绍: 1.Tokenizer 输入为Reader的TokenStream,其子类必须实现incrementToken()函数,…

solr&lucene3.6.0源码解析（一）

本文作为系列的第一篇,主要描述的是solr3.6.0开发环境的搭建首先我们需要从官方网站下载solr的相关文件,下载地址为http://archive.apache.org/dist/lucene/solr/3.6.0/ 将下载的文件解压到solr-3.6.0文件夹然后本人在myeclipse下建立web project,在pom.xml文件添加相关依赖,本人配置如下: <properties> <solr.version>3.6.0</solr.versio…

solr&lucene3.6.0源码解析（四）

本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下: 如果我们强行将上面的类图纳入某种设计模式语言的话,本人姑且将之归入桥接模式(Bridge)吧:QParserPlugin插件的行为依赖于QParser的具体类型 QParserPlugin为抽象类,职责为创建QParser类型对象 package org.apache.solr.search; import org.apache.solr.commo…

solr&lucene3.6.0源码解析（三）

solr索引操作(包括新增更新删除提交合并等)相关UML图如下从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用 UpdateRequestProcessor相当于责任链模式中的处理器角色,我们通过如下的对象图也许更能反映多个UpdateRequestProcessor类型的处理器的活动行为 UpdateRequestProcessorChain为请求处理器链,供客户端调用(内部依赖处理器工厂数组生成不同的处理器) public final class UpdateRe…

细说Lucene源码(一)：索引文件锁机制

大家都知道,在多线程或多进程的环境中,对统一资源的访问需要特别小心,特别是在写资源时,如果不加锁,将会导致很多严重的后果,Lucene的索引也是如此,lucene对索引的读写分为IndexReader和IndexWriter,顾名思义,一个读,一个写,lucene可以对同一个索引文件建立多个IndexReader对象,但是只能有一个IndexWriter对象,这是怎么做到的呢?显而易见是需要加锁的,加锁可以保证一个索引文件只能建立一个IndexWriter对象.下面就细说Lucene索引文件锁机…