Lucene分词器

Lucene分析器的基类为Analyzer，Analyzer包含两个核心组件：Tokenizer和 TokenFilter。自定义分析器必须实现Analyzer类的抽象方法createComponents(String)来定义TokenStreamComponents。在调用方法tokenStream(String, Reader)的时候，TokenStreamComponents会被重复使用。

自定义分析器首先需要继承Analyzer类，代码如下：

public class HAnalyzer extends Analyzer {

    /*

     * 默认不使用停用单词

     * */

    private boolean useStopWords;

    private CharArraySet stopWords;

    public HAnalyzer() {

        useStopWords = false;

    }

    public HAnalyzer(CharArraySet stopWords) {

        useStopWords = true;

        this.stopWords = stopWords;

    }

    @Override

    protected TokenStreamComponents createComponents(String fieldName) {

        LetterTokenizer tokenizer = new LetterTokenizer();

        if(useStopWords) {

            return new TokenStreamComponents(tokenizer , new HStopTokenFilter(tokenizer, stopWords));

        }

        return new TokenStreamComponents(tokenizer);

    }

}

Analyzer两个核心组件：Tokenizer和 TokenFilter，实现如下：

/*

 * 分词解析器,需要定义Token属性CharTermAttribute offsetAttribute

 * */

public class LetterTokenizer extends Tokenizer {

    /*

     * 词元文本属性

     * */

    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

    /*

     * 词元位移属性

     * */

    private final OffsetAttribute offsetAtt = addAttribute(OffsetAttribute.class);

    /*

     * Token文本最大长度

     * */

    private static final int MAX_WORD_LEN = 255;      

    /*

     * Buffer Size

     * */

    private static final int IO_BUFFER_SIZE = 4096;

    private char[] ioBuffer = new char[IO_BUFFER_SIZE];

    /*

     * Token分隔符集合

     * */

    private char[] splitChars = {' ',',','.','!'};

    /*

     * 当前字符串在原字符串中的位置

     * */

    private int offset = 0;

    /*

     * 当前字符在这一次读取的字符串中的位置

     * */

    private int bufferIndex = 0;

    /*

     * 每次读取字符串的长度

     * */

    private int dataLen = 0;

    @Override

    public boolean incrementToken() throws IOException {

        clearAttributes();                                  // 清除前一个Token的所有属性

        int length = 0;                                     // 单词的长度

        int start = bufferIndex;

        char []buffer = termAtt.buffer();

        while(true) {

            if(bufferIndex >= dataLen) {                    // 分词处理到ioBuffer末尾时,继续从input读取数据

                offset += dataLen;

                dataLen = input.read(ioBuffer);

                if(dataLen == -1) {                         // 在Reader读取结束

                    dataLen = 0;

                    if(length > 0) {                        // 虽然从input读取完数据,ioBuffer处理的字符 还没有生成Token

                        break;

                    } else {

                        return false;

                    }

                }

                bufferIndex = 0;                            // 指向ioBuffer的起始位置

            }

            /**处理ioBuffer读取的字符*/

            final char ch = ioBuffer[bufferIndex++];

            if(isTokenChar(ch)) {                           // ch分隔符,形成Token,跳出循环

                if(length == 0) {

                    start = offset + bufferIndex - 1;

                } else if(length == buffer.length) {

                    buffer = termAtt.resizeBuffer(length + 1);

                }

                if(length == MAX_WORD_LEN) {

                    break;

                }

                break;

            } else {

                buffer[length++] = normalize(ch);           // CharTermAttribute文本赋值

            }

         }

        termAtt.setLength(length);

        offsetAtt.setOffset(correctOffset(start), correctOffset(start + length));

         return true;

    }

    /*

     * 规整化--->转为小写

     * */

    protected char normalize(char ch) {

        return Character.toLowerCase(ch);

    }

    /*

     * 如果字符ch是分隔符,返回true

     * */

    protected boolean isTokenChar(char ch) {

        for(char c : splitChars) {

            if(ch == c) {

                return true;

            }

        }

        return false;

    }

}

/*

 * 过滤TokenStream,需要更改Token的PositionIncrementAttribute属性

 * */

public class HStopTokenFilter extends TokenFilter {

    /*

     * TokenStream流Token文本属性

     * */

    private final CharTermAttribute termAtt = addAttribute(CharTermAttribute.class);

    /*

     * 当前Token与前一个Token位移差属性

     * */

    private PositionIncrementAttribute posIncrAtt = addAttribute(PositionIncrementAttribute.class);

    private int skippedPositions;                      

    /*

     * 停用单词集合

     * */

    private CharArraySet stopWords;

    protected HStopTokenFilter(TokenStream input) {

        super(input);

    }

    public HStopTokenFilter(TokenStream input , CharArraySet stopWords) {

        this(input);

        this.stopWords = stopWords;

    }

    @Override

    public boolean incrementToken() throws IOException {

        clearAttributes();                           // 清除上个Token所有属性

        skippedPositions = 0;

        while(input.incrementToken()) {

            if(filter()) {                           // 过滤掉当前Token,修改skippedPositions

                skippedPositions += posIncrAtt.getPositionIncrement();

            } else {                                 // 当前Token不可过滤,如果前一个Token被过滤,需修改当前Token的PositionIncrementAttribute属性

                if(skippedPositions != 0) {

                    posIncrAtt.setPositionIncrement(posIncrAtt.getPositionIncrement() + skippedPositions);

                }

                return true;

            }

        }

        return false;

    }

    private boolean filter() {

        return stopWords.contains(termAtt.buffer() , 0 , termAtt.length());

    }

}

通过自定义的HAnalyzer，可以完成文本分析，示例如下：

public class Main {

    public static void main(String []args) {

        HAnalyzer analyzer = new HAnalyzer();

        TokenStream ts = null;

        try {

            ts = analyzer.tokenStream("myfield", new StringReader("I am a student.My name is Tom!"));

            //获取词元位置属性

            OffsetAttribute  offset = ts.addAttribute(OffsetAttribute.class);

            //获取词元文本属性

            CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);

            //重置TokenStream（重置StringReader）

            ts.reset();

            //迭代获取分词结果

            while (ts.incrementToken()) {

              System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : " + term.toString() );

            }

            //关闭TokenStream（关闭StringReader）

            ts.end();

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

}

Lucene分词器的更多相关文章

Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene系列三：Lucene分词器详解、实现自己的一个分词器
一.Lucene分词器详解 1. Lucene-分词器API (1)org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分 ...
lucene分词器与搜索
一.分词器 lucene针对不同的语言和虚伪提供了许多分词器,我们可以针对应用的不同的需求使用不同的分词器进行分词.我们需要注意的是在创建索引时使用的分词器与搜索时使用的分词器要保持一致.否则搜索的结 ...
学习笔记（三）--Lucene分词器详解
Lucene-分词器API org.apache.lucene.analysi.Analyzer 分析器,分词器组件的核心API,它的职责:构建真正对文本进行分词处理的TokenStream(分词处理 ...
lucene 分词器
分词器作用:切分关键词的. 在什么地方使用到了:在建立索引和搜索时. 原文:An IndexWriter creates and maintains an index. 1,切分: An Index ...
lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter
分词器的核心类: Analyzer:分词器 TokenStream: 分词器做优点理之后得到的一个流.这个流中存储了分词的各种信息,能够通过TokenStream有效的获取到分词单元. 下面是把文件流 ...
Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene 03 - 什么是分词器 + 使用IK中文分词器
目录 1 分词器概述 1.1 分词器简介 1.2 分词器的使用 1.3 中文分词器 1.3.1 中文分词器简介 1.3.2 Lucene提供的中文分词器 1.3.3 第三方中文分词器 2 IK分词器的 ...
Lucene.net(4.8.0) 学习问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...

随机推荐

Idea设置全白色背景
IDEA设置全白色背景标签(空格分隔): 工具使用编辑框白色设置菜单栏白色设置
第二篇：zone（区域）
什么是区域? 网络区域定义网络连接的信任级别(the level of trust for network connections).一个网络连接只能是一个区域的一部分,但一个区域可以包含许多网络连接 ...
rest_frameword学前准备
CBV CBV(class base views) 就是在视图里使用类处理请求. Python是一个面向对象的编程语言,如果只用函数来开发,有很多面向对象的优点就错失了(继承.封装.多态).所以Dja ...
hdu 5175(数论)
Misaki's Kiss again Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Othe ...
ros bashrc 无法source setup.sh
不知道什么时候开始的,莫名其妙首先是QT闪退,无法找到头文件,然后命令行进去catkin无法提示catkin_make 手动source之后就好了问题出现在bashrc中source失败了所以检查 ...
java 反射赋空值
https://stackoverflow.com/questions/10087989/how-do-i-reflectively-invoke-a-method-with-null-as-argu ...
运行微信支付demo
首先要说说写这篇文章的初衷:集成支付宝支付运行demo都是可以正常运行的,但是我下载下来微信支付的demo,却发现一大堆报错,而且相关文章几乎没有,可能大家觉得没必要,也许你觉得很简单:但是技术大牛都 ...
hdu5739
以前从来没写过求点双连通分量,现在写一下…… 这题还用到了一个叫做block forest data structure,第一次见过…… ——对于每一个点双联通分量S, 新建一个节点s, 向S中每个节 ...
VisualStudio 2013开发Office插件
在VS中选择创建新项目,选择App for Office 选择mail出现的位置 Task pane The app appears in the task pane of a Microsift O ...
selenium Select用法笔记
select_by value:参数为option中的value属性,例如:HTML代码中 <ignore_js_op> ,应该是value="volvo"这个值,所以 ...

Lucene分词器

Lucene分词器的更多相关文章

随机推荐

热门专题