通过lucene的StandardAnalyzer分析器来了解分词

本文转载http://blog.csdn.net/jspamd/article/details/8194919

　　不同的Lucene分析器Analyzer，它对TokenStream进行分词的方法是不同的，这需要根据具体的语言来选择。比如英文，一般是通过空格来分割词条，而中文汉字则不能通过这种方式，最简单的方式就是单个汉字作为一个词条。

TokenStream是通过从设备或者其他地方获取数据源而构造的一个流，我们要执行分词的动作，应该对这个TokenStream进行操作。

TokenStream也可以不是直接通过数据源构造的流，可以是经过分词操作之后读入TokenFilter的一个分词流。

从本地磁盘的文件读取文本内容，假定在文本文件shirdrn.txt中有下列文字：

中秋之夜，享受着月华的孤独，享受着爆炸式的思维跃迁。

通过使用FileReader构造一个流，对其进行分词：

package org.shirdrn.lucene;

import java.io.File;

import java.io.FileReader;

import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class MyAnalyzer {

public static void main(String[] args) {

   try {

    File file = new File("E:\\shirdrn.txt");

    Reader reader = new FileReader(file);

   Analyzer a = new StandardAnalyzer();

    //Analyzer a = new CJKAnalyzer();

    //Analyzer a = new ChineseAnalyzer();

    //Analyzer a = new WhitespaceAnalyzer();

    TokenStream ts = a.tokenStream("", reader);

    Token t = null;

    int n = 0;

    while((t = ts.next()) != null ){

     n ++ ;

     System.out.println("词条"+n+"的内容为 ："+t.termText());

    }

    System.out.println("== 共有词条 "+n+" 条 ==");

   } catch (Exception e) {

    e.printStackTrace();

   }

}

}

这里使用StandardAnalyzer分析器，而且使用了不带参数的构造器StandardAnalyzer()，在StandardAnalyzer类的这个不带参数的构造器中，指定了一个过滤字符数组STOP_WORDS：

public StandardAnalyzer() {

    this(STOP_WORDS);

}

而在StandardAnalyzer类中定义的STOP_WORDS 数组实际是引用StopAnalyzer类的ENGLISH_STOP_WORDS数组，该数组中可以根据需要添加过滤的字符：

public static final String[] STOP_WORDS = StopAnalyzer.ENGLISH_STOP_WORDS;

StopAnalyzer类中ENGLISH_STOP_WORDS数组原始内容如下所示：

public static final String[] ENGLISH_STOP_WORDS = {

    "a", "an", "and", "are", "as", "at", "be", "but", "by",

    "for", "if", "in", "into", "is", "it",

    "no", "not", "of", "on", "or", "such",

    "that", "the", "their", "then", "there", "these",

    "they", "this", "to", "was", "will", "with"

};

都是一些英文单词，而且这些单词对于检索关键字意义不大，所以在分析的时候应该把出现的这些单词过滤掉。

如果按照默认的STOP_WORDS运行上面我们的测试程序，则根本没有对中文起到过滤作用，测试结果如下所示：

词条1的内容为 ：中

词条2的内容为 ：秋

词条3的内容为 ：之

词条4的内容为 ：夜

词条5的内容为 ：享

词条6的内容为 ：受

词条7的内容为 ：着

词条8的内容为 ：月

词条9的内容为 ：华

词条10的内容为 ：的

词条11的内容为 ：孤

词条12的内容为 ：独

词条13的内容为 ：享

词条14的内容为 ：受

词条15的内容为 ：着

词条16的内容为 ：爆

词条17的内容为 ：炸

词条18的内容为 ：式

词条19的内容为 ：的

词条20的内容为 ：思

词条21的内容为 ：维

词条22的内容为 ：跃

词条23的内容为 ：迁

== 共有词条 23 条 ==

我们可以在org.apache.lucene.analysis.StopAnalyzer类中定制自己的STOP_WORDS，例如我们定义：

public static final String[] ENGLISH_STOP_WORDS = {

     "着", "的", "之", "式"

   };

则再执行上面的测试程序，分词过程中会过滤掉出现在ENGLISH_STOP_WORDS数组中的词条，如下所示：

词条1的内容为 ：中

词条2的内容为 ：秋

词条3的内容为 ：夜

词条4的内容为 ：享

词条5的内容为 ：受

词条6的内容为 ：月

词条7的内容为 ：华

词条8的内容为 ：孤

词条9的内容为 ：独

词条10的内容为 ：享

词条11的内容为 ：受

词条12的内容为 ：爆

词条13的内容为 ：炸

词条14的内容为 ：思

词条15的内容为 ：维

词条16的内容为 ：跃

词条17的内容为 ：迁

== 共有词条 17 条 ==

另外，因为StandardAnalyzer类具有很多带参数的构造函数，可以在实例化一个StandardAnalyzer的时候，通过构造函数定制分析器，例如使用：

public StandardAnalyzer(Set stopWords)

构造的分析器如下：

   Set stopWords = new HashSet();

    stopWords.add("着");

    stopWords.add("的");

    stopWords.add("之");

    stopWords.add("式");

    Analyzer a = new StandardAnalyzer(stopWords);

运行结果同修改StopAnalyzer类中的STOP_WORDS结果是一样的。

还有一个构造函数，通过使用数组指定stopWords的过滤词条：

public StandardAnalyzer(String[] stopWords) {

    stopSet = StopFilter.makeStopSet(stopWords);

}

调用了StopFilter类的makeStopSet方法对stopWords中的字符进行了转换处理：

public static final Set makeStopSet(String[] stopWords) {

    return makeStopSet(stopWords, false);

}

又调用了该类的一个重载的方法makeStopSet，第一个参数指定过滤词条的数组，第一个参数为boolean类型，设置是否要将大写字符转换为小写：

public static final Set makeStopSet(String[] stopWords, boolean ignoreCase) {

    HashSet stopTable = new HashSet(stopWords.length);

    for (int i = 0; i < stopWords.length; i++)

      stopTable.add(ignoreCase ? stopWords[i].toLowerCase() : stopWords[i]);

    return stopTable;

}

在StandardAnalyzer类中，没有把stopWords中的词条转换为小写。

上面的三种构造StandardAnalyzer分析器的方式都是在程序中指定要过滤词条，程序的独立性比较差，因为每次想要添加过滤词条都需要改动程序。

StandardAnalyzer还提供了两种从数据源读取过滤词条的文本的构造方式：

public StandardAnalyzer(File stopwords) throws IOException {

    stopSet = WordlistLoader.getWordSet(stopwords);

}

public StandardAnalyzer(Reader stopwords) throws IOException {

    stopSet = WordlistLoader.getWordSet(stopwords);

}

他们分别使用File和Reader分别来构造一个File对象和读取字符流，从指定的数据源读取内容，然后调用WordlistLoader类的getWordSet静态方法来对读取的字符流进行转换操作，以从File对象中获取字符为例：

public static HashSet getWordSet(File wordfile) throws IOException {

    HashSet result = new HashSet();

    FileReader reader = null;

    try {

      reader = new FileReader(wordfile);

      result = getWordSet(reader);

    }

    finally {

      if (reader != null)

        reader.close();

    }

    return result;

}

实际上仍然通过File对象构造一个FileReader读取字符流，然后从流中取得过滤的词条，加入到HashSet 中。这里调用了获取HashSet的getWordSet方法，在方法getWordSet中才真正地实现了提取词条的操作:

public static HashSet getWordSet(Reader reader) throws IOException {

    HashSet result = new HashSet();

    BufferedReader br = null;

    try {

      if (reader instanceof BufferedReader) {

        br = (BufferedReader) reader;

      } else {

        br = new BufferedReader(reader);

      }

      String word = null;

      while ((word = br.readLine()) != null) {

        result.add(word.trim());

      }

    }

    finally {

      if (br != null)

        br.close();

    }

    return result;

}

这里提取词条要求读入的文本是按照行来分割过滤词条的，即每行作为一个词条。对于中文，只能是每个字作为一行，如果以两个的词语作为一行，处理后根本没有加入到过滤词条的HashSet中，这时因为StandardAnalyzer分析器是以单个中文汉字作为一个词条的。我们可以定制自己的分析器。

测试一下上述说明的情况。

在本地磁盘上建立一个txt文本stopWords.txt，添加过滤词条：

着

的

之

式

测试程序如下所示：

   public static void main(String[] args) {

   try {

    File file = new File("E:\\shirdrn.txt");

    FileReader stopWords = new FileReader("E:\\stopWords.txt");

    Reader reader = new FileReader(file);

    Analyzer a = new StandardAnalyzer(stopWords);

    TokenStream ts = a.tokenStream("", reader);

    Token t = null;

    int n = 0;

    while((t = ts.next()) != null ){

     n ++ ;

     System.out.println("词条"+n+"的内容为 ："+t.termText());

    }

    System.out.println("== 共有词条 "+n+" 条 ==");

   } catch (Exception e) {

    e.printStackTrace();

   }

}

测试输出结果同前面的一样，都对词条进行了过滤：

词条1的内容为 ：中

词条2的内容为 ：秋

词条3的内容为 ：夜

词条4的内容为 ：享

词条5的内容为 ：受

词条6的内容为 ：月

词条7的内容为 ：华

词条8的内容为 ：孤

词条9的内容为 ：独

词条10的内容为 ：享

词条11的内容为 ：受

词条12的内容为 ：爆

词条13的内容为 ：炸

词条14的内容为 ：思

词条15的内容为 ：维

词条16的内容为 ：跃

词条17的内容为 ：迁

== 共有词条 17 条 ==

通过lucene的StandardAnalyzer分析器来了解分词的更多相关文章

Lucene.net(4.8.0)+PanGu分词器问题记录一:分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene基础（三）-- 中文分词及高亮显示
Lucene分词器及高亮分词器在lucene中我们按照分词方式把文档进行索引,不同的分词器索引的效果不太一样,之前的例子使用的都是标准分词器,对于英文的效果很好,但是中文分词效果就不怎么样,他会按 ...
Lucene为不同字段指定不同分词器(转)
在lucene使用过程中,如果要对同一IndexWriter中不同 Document,不同Field中使用不同的analyzer,我们该如何实现呢? 通过对<lucene in action&g ...
查看分析器(Analyzer)的分词效果
1 测试代码 package com.test.lucene.helloworld; import org.apache.lucene.analysis.Analyzer; import org.ap ...
【lucene系列学习四】使用IKAnalyzer分词器实现敏感词和停用词过滤
Lucene自带的中文分词器SmartChineseAnalyzer不太好扩展,于是我用了IKAnalyzer来进行敏感词和停用词的过滤. 首先,下载IKAnalyzer,我下载了然后,由于IKAn ...
Lucene 6.0下使用IK分词器
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer ...
【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能
业务要求是对商品标题可以进行模糊搜索例如用户输入了[我想查询下雅思托福考试],这里我们需要先将这句话分词成[查询][雅思][托福][考试],然后搜索包含相关词汇的商品. 思路如下首先我们需要把数据 ...
ElasticSearch自定义分析器-集成结巴分词插件
关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发.支持Elast ...

随机推荐

JS原型与原型链终极详解
一. 普通对象与函数对象 JavaScript 中,万物皆对象!但对象也是有区别的.分为普通对象和函数对象,Object ,Function 是JS自带的函数对象.下面举例说明 function f ...
net面试 ASP.NET页面传值的各种方法和分析（copy)
Web页面是无状态的, 服务器对每一次请求都认为来自不同用户,因此,变量的状态在连续对同一页面的多次请求之间或在页面跳转时不会被保留.在用ASP.NET 设计开发一个Web系统时, 遇到一个重要的问题 ...
webpack常用加载器和插件
css文件加载器: style-loader,css-loader,sass-loader,less-loader //style和css加载器必须放在一起使用,且style必须放前面(style!c ...
（原创）mybatis学习一，夯实基础
一,what?(是什么) MyBatis是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架.MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装.MyBatis可 ...
047医疗项目-模块四：采购单模块—采购单审核提交（Dao,Service,Action三层）
我们之前把采购单都审核了,这篇文章说的就是审核之后提交. 其实就是改变(update)采购单的审核状态. 需求: 用户要先查看采购单的内容. 查看采购单页面:页面布局同采购单修改页面. 选择审核结果. ...
BZOJ 3631 【JLOI2014】松鼠的新家
Description 松鼠的新家是一棵树,前几天刚刚装修了新家,新家有n个房间,并且有n-1根树枝连接,每个房间都可以相互到达,且俩个房间之间的路线都是唯一的.天哪,他居然真的住在"树&q ...
BZOJ 3295 【Cqoi2011】动态逆序对
Description 对于序列\(A\),它的逆序对数定义为满足\(i<j\),且\(A_i>A_j\)的数对\((i,j)\)的个数.给\(1\)到\(n\)的一个排列,按照某种顺序依 ...
SQL2012删除作业失败的处理
修改msdb数据库中的过程sp_delete_job,如下: USE [msdb] GO /****** Object: StoredProcedure [dbo].[sp_delete_job] S ...
C#.NET 大型通用信息化系统集成快速开发平台 4.0 版本 - 标准省市县数据的公司选择窗口实现
若全国各地有上千个分公司,加盟店,网点,那就需要一个友善的选择分公司的功能,得有标准的全国省市县的划分数据.这样有了牢靠的基础数据后,才能开发程序得心应手了.当习惯了开发一个公司内部系统时,全国性大公 ...
QT UDP聊天小程序
利用QT的UDP技术,实现两个QT程序之间的聊天程序. #ifndef WIDGET_H #define WIDGET_H #include <QWidget> #include < ...

通过lucene的StandardAnalyzer分析器来了解分词

通过lucene的StandardAnalyzer分析器来了解分词的更多相关文章

随机推荐

热门专题