理解Lucene中的Analyzer

学习一个库，最好去官网。因为很多库API变动十分大，从博客上找的教程都过时了。

Lucene原理就是简简单单的“索引”，以空间换时间。但是Lucene将这件事做到了极致，后人再有想写倒排索引的，只能算是练练手。

Lucene的重要模块之一就是分析器模块，这个模块负责对输入文本进行一些处理，比如分词、去除停止词（如“的”、“着”）等琐碎操作。

这个模块产生的token，就相当于键，求token的哈希值，然后把文档id放到对应的桶中。

中文Analyzer有三个，分别是：

ChineseAnalyzer (in the analyzers/cn package): 一个汉字是一个token。
CJKAnalyzer (in the analysis/cjk package): 两个汉字是一个token。
SmartChineseAnalyzer (in the analyzers/smartcn package): 每一个词语是一个token。

这三个Analyzer只有CJKAnalyzer是Lucene标准库中的，另外两个需要额外添加依赖。

它们的效果分别如下：

Example phrase： "我是中国人"

ChineseAnalyzer: 我－是－中－国－人
CJKAnalyzer: 我是－是中－中国－国人
SmartChineseAnalyzer: 我－是－中国－人

显而易见，ChineseAnalyzer和CJKAnalyzer太难用，只有SmartChineseAnalyzer自带分词功能。

下面这段代码，演示了如何创建Analyzer，获取Analyzer的TokenStream，从tokenStream中读取词组。

Analyzer analyzer = new SmartChineseAnalyzer(); // or any other analyzer

TokenStream ts = analyzer.tokenStream("myfield", new StringReader("床前明月光，疑是地上霜。举头望明月，低头思故乡。"));

// The Analyzer class will construct the Tokenizer, TokenFilter(s), and CharFilter(s),

//   and pass the resulting Reader to the Tokenizer.

OffsetAttribute offsetAtt = ts.addAttribute(OffsetAttribute.class);

try {

    ts.reset(); // Resets this stream to the beginning. (Required)

    while (ts.incrementToken()) {

        // Use AttributeSource.reflectAsString(boolean)

        // for token stream debugging.

        System.out.println("token: " + ts.reflectAsString(true));

        System.out.println("token start offset: " + offsetAtt.startOffset());

        System.out.println("  token end offset: " + offsetAtt.endOffset());

    }

    ts.end();   // Perform end-of-stream operations, e.g. set the final offset.

} finally {

    ts.close(); // Release resources associated with this stream.

}

tokenStream对象可以添加以下属性，用来获取token的附加信息

OffsetAttribute offsetAttribute = tokenStream.addAttribute(OffsetAttribute.class);
PositionIncrementAttribute positionIncrementAttribute = tokenStream.addAttribute(PositionIncrementAttribute.class);
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
TypeAttribute typeAttribute = tokenStream.addAttribute(TypeAttribute.class);

以上内容来自Lucene官方文档，但是据我观察ChineseAnalyzer已经不见了，因为它跟StandardAnalyzer没啥区别。

可见即便是官方文档也存在各种版本问题。

所以学习一定要随随便便学点，不能过于较真，不能过于相信文档。

理解Lucene中的Analyzer的更多相关文章

理解Lucene中的Query
Query是一个接口,它有很多实现类. QueryParser是Query解析器,用于将一个字符串解析为一个Query对象,这个Query对象可能属于TermQuery,也可能属于PhraseQuer ...
Lucene中Analyzer语句分析
Lucene中Analyzer语句分析,利用lucene中自带的词法分析工具Analyzer,进行对句子的分析. 源代码如下: package com.test; import java.io.IOE ...
理解Lucene索引与搜索过程中的核心类
理解索引过程中的核心类执行简单索引的时候需要用的类有: IndexWriter.Directory.Analyzer.Document.Field 1.IndexWriter IndexWr ...
基础：从概念理解Lucene的Index（索引）文档模型
转:http://blog.csdn.net/duck_genuine/article/details/6053430 目录(?)[+] Lucene主要有两种文档模型:Document和Fi ...
lucene 中关于Store.YES 关于Store.NO的解释
总算搞明白 lucene 中关于Store.YES 关于Store.NO的解释了一直对Lucene Store.YES不太理解,网上多数的说法是存储字段,NO为不存储. 这样的解释有点郁闷:字面意 ...
《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析
通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就 ...
lucene中Field简析
http://blog.csdn.net/zhaoxiao2008/article/details/14180019 先看一段lucene3代码 Document doc = new Document ...
Lucene 中的Tokenizer, TokenFilter学习
lucene中的TokenStream,TokenFilter之间关系 TokenStream是一个能够在被调用后产生语汇单元序列的类,其中有两个类型:Tokenizer和TokenFilte ...
如何理解javaSript中函数的参数是按值传递
本文是我基于红宝书<Javascript高级程序设计>中的第四章,4.1.3传递参数小节P70,进一步理解javaSript中函数的参数,当传递的参数是对象时的传递方式. (结合资料的个人 ...

随机推荐

AES算法工具类
什么是对称加密算法? AES已经变成目前对称加密中最流行算法之一:AES可以使用128.192.和256位密钥,并且用128位分组加密和解密数据. 对称加密算法安全吗? 看过间谍局的知友们一定知道电台 ...
kafka-manager：kafak的管理界面的安装和使用
下载打包 release下载:https://github.com/yahoo/kafka-manager/releases 源码位置:https://github.com/yahoo/kafka-m ...
【BZOJ】【2127】happiness
网络流/最小割 Orz Hzwer. 这题他题解说的比较简略……我手画了个图才明白过来…… 嗯对于每个人选文or理的单独收益大家应该很好理解……连S->i 权值为选文的喜悦值,i->T权值 ...
[leetcode]Construct Binary Tree from Inorder and Postorder Traversal @ Python
原题地址:http://oj.leetcode.com/problems/construct-binary-tree-from-inorder-and-postorder-traversal/ 题意: ...
Android中intent如何传递自定义数据类型
转载自:http://www.cnblogs.com/GoAhead/archive/2012/07/16/2593868.html 大家好,好久不见,今天要给大家讲一下Android中Intent中 ...
Minimum Depth of Binary Tree leetcode java
题目: Given a binary tree, find its minimum depth. The minimum depth is the number of nodes along the ...
scala 学习笔记二方法与函数
1.介绍 Scala 有方法与函数,二者在语义上的区别很小.Scala 方法是类的一部分,而函数是一个对象可以赋值给一个变量.换句话来说在类中定义的函数即是方法. Scala 中的方法跟 Java 的 ...
一款纯css实现的垂直时间线效果
今天给大家分享一款纯css实现的垂直时间线效果.垂直时间线适合放在类似任务时间安排的网页上.该实现采用了蓝色作为主题色,界面效果还不错.一起看下效果图: 实现的代码. html代码: ... 阅读原文 ...
UITableViewCell 取消选中的蓝色背景
方案一: [self.tableView setAllowsSelection:NO]; 方案二: [cell setSelectionStyle:UITableViewCellSelectionSt ...
[转]intellij 13新建javaweb项目并用tomcat 7启动
来自:http://blog.csdn.net/little__zm/article/details/19570535 对intellij不熟,找了很多文章,只这篇最为顺利.其他都有各种各校的问题,先 ...

理解Lucene中的Analyzer

理解Lucene中的Analyzer的更多相关文章

随机推荐

热门专题