Analyzer原理

【常用分词器】

SimpleAnalyzer
StopAnalyzer
WhitespaceAnalyzer
StandardAnalyze

【TokenStream】

she is a student ==〉TokenStream

TokenStream有2个实现类。Tokenizer、TokenFilter

1) Tokenizer

将数据进行分割形成一定的语汇(所谓语汇是指一个一个独立的词语。)。最终结果将形成TokenStream。

2) TokenFilter

按照规则对语汇进行过滤。如：StopFilter可以对停用词进行过滤。

3) 执行过程

【存储方式】

【应用TokenStream】

     /**

      * 使用TokenStream进行分词

      * @param str

      * @param analyzer

      */

     public static void displayTokenStream(String str, Analyzer analyzer){

         try {

             //通过Analayer获取TokenStream

             //toenStream("域名称或文件名"，输入流对象)

             TokenStream stream = analyzer.tokenStream("content", new StringReader(str));

             //向流中添加一个属性

             //容器，存储每次分词所对应的语汇内容

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //通过循环语句读取语汇的内容

             while(stream.incrementToken()){

                 System.out.print("[" + charAttr + "]  ");

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     private Version version = Version.LUCENE_35;

     /**

      * 测试TokenStream(英文内容)

      */

     @Test

     public void test01(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

     /**

      * 测试TokenStream(中文内容)

      */

     @Test

     public void test02(){

         String str = "我来自翰林，我爱翰林";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayTokenStream(str, a1);

         AnalyzerUtil.displayTokenStream(str, a2);

         AnalyzerUtil.displayTokenStream(str, a3);

         AnalyzerUtil.displayTokenStream(str, a4);

     }

TokenStream可以读取到分词内容.

【Attribute】

     /**

      * 显示语汇的基本属性

      * @param str

      * @param anlyzer

      */

     public static void displayAttributes(String str, Analyzer anlyzer){

         try {

             //获取TokenStream对象

             TokenStream stream = anlyzer.tokenStream("content", new StringReader(str));

             //PositionIncrementAttribute ：存储了语汇之间的位置增量

             //添加PositionIncrementAttribute属性

             PositionIncrementAttribute positionAttr = stream.addAttribute(PositionIncrementAttribute.class);

             //添加CharTermAttrbute

             CharTermAttribute charAttr = stream.addAttribute(CharTermAttribute.class);

             //OffsetAttribute：获取语汇的偏移数据

             OffsetAttribute offsetAttr = stream.addAttribute(OffsetAttribute.class);

             //语汇的分词方式类型（了解）

             TypeAttribute typeAttr = stream.addAttribute(TypeAttribute.class);

             //遍历每一个语汇

             while(stream.incrementToken()){

                 System.out.print(positionAttr.getPositionIncrement() + "、");

                 System.out.print("[" + charAttr + "  : " + offsetAttr.startOffset() + "~" + offsetAttr.endOffset()+ "(" + typeAttr.type()+ "）] " );

             }

             System.out.println();

         } catch (IOException e) {

             e.printStackTrace();

         }

     }

     /**

      * 测试属性的应用

      */

     @Test

     public void test03(){

         String str = "I'm come from Hanlin，I love Hanlin";

         System.out.println("str = " + str);

         System.out.println("====================================");

         //创建Analyzer对象

         Analyzer a1 = new SimpleAnalyzer(version);

         Analyzer a2 = new StopAnalyzer(version);

         Analyzer a3 = new WhitespaceAnalyzer(version);

         Analyzer a4 = new StandardAnalyzer(version);

         //测试TokenStream

         AnalyzerUtil.displayAttributes(str, a1);

         AnalyzerUtil.displayAttributes(str, a2);

         AnalyzerUtil.displayAttributes(str, a3);

         AnalyzerUtil.displayAttributes(str, a4);

     }

FlagsAttribute：标志位属性信息(了解)

PayloadAttribute：负载属性信息(了解)

说明:每一个语汇单元都存在一定的属性.通过Attribute可以获取到相关的语汇信息。

Analyzer原理的更多相关文章

Lucene 工作原理之倒排索引
1.简介倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址.由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 ...
Compiler Theory(编译原理)、词法/语法/AST/中间代码优化在Webshell检测上的应用
catalog . 引论 . 构建一个编译器的相关科学 . 程序设计语言基础 . 一个简单的语法制导翻译器 . 简单表达式的翻译器(源代码示例) . 词法分析 . 生成中间代码 . 词法分析器的实现 ...
LDO稳压器工作原理
LDO稳压器工作原理随着便携式设备(电池供电)在过去十年间的快速增长,像原来的业界标准 LM340 和LM317 这样的稳压器件已经无法满足新的需要.这些稳压器使用NPN 达林顿管,在本文中称其为N ...
IKAnalyzer原理分析
IKAnalyzer原理分析 IKAnalyzer自带的 void org.wltea.analyzer.dic.Dictionary.disableWords(Collection<Strin ...
免费的Lucene 原理与代码分析完整版下载
Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的 ...
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
Lucene 的索引文件锁原理
Lucene 的索引文件锁原理 2016/11/24 · IT技术 · lucene 环境 Lucene 6.0.0Java “1.8.0_111”OS Windows 7 Ultimate 线程 ...
springboot之启动原理解析
前言 SpringBoot为我们做的自动配置,确实方便快捷,但是对于新手来说,如果不大懂SpringBoot内部启动原理,以后难免会吃亏.所以这次博主就跟你们一起一步步揭开SpringBoot的神秘面 ...
SpringBoot启动原理及相关流程
一.springboot启动原理及相关流程概览 springboot是基于spring的新型的轻量级框架,最厉害的地方当属自动配置.那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置二 ...

随机推荐

A - I'm bored with life
Holidays have finished. Thanks to the help of the hacker Leha, Noora managed to enter the university ...
[SDOI2013]spring
Description Input Output Sample Input 3 3 1 2 3 4 5 6 1 2 3 0 0 0 0 0 0 4 5 6 Sample Output 2 HINT 容 ...
【小程序】基于.NET CORE2.1 的微信开放平台第三方平台开发教程一准备工作
微信第三方平台概述公众平台第三方平台是为了让公众号或小程序运营者,在面向垂直行业需求时,可以一键授权给第三方平台(并且可以同时授权给多家第三方),通过第三方平台来完成业务,开放给所有通过开发者资质认 ...
【LeetCode】树的遍历
非递归中序遍历: 思路:注释 vector<int> inorderTraversal(TreeNode* root) { vector<int>ret; if(root == ...
AJPFX分析int 和integer的区别
int是java提供的8种原始数据类型之一.Java为每个原始类型提供了封装类,Integer是java为int提供的封装类.int的默认值为0,而Integer的默认值为null,即Integer可 ...
SQL常用系统信息语句
一.查询指定表外键约束 SELECT A.name AS 约束名 , OBJECT_NAME(B.parent_object_id) AS 外键表 , D.name AS ...
了解移动用户的隐私期望：一种基于推荐的Crowdsourcing方法
应学习之需,最近一段时间阅读了一篇论文,特写下总结,若有纰漏,还望指出. 目录引言推荐机制实现评估心得 1.1 为什么要了解移动用户的隐私期望 1.移动设备的广泛使用存在一些潜在的隐私威胁和 ...
Android应用开发细节点
1.如果handler是在主线程声明,就属于主线程,handleMessage属于引用handler的那个线程:2.ByteArrayOutputStream/ByteArrayInputStream ...
scala基础篇-03 if与for
一.Scala中的if是表达式** 1.定义方式 2.例子二.for 的用法 1.定义方式: for{ x <- xs y=x+ ) }yield y 2.例子:
(1) Jenkins + Subversion + Maven + TestNG - 软件
软件需求 1 Jenkins http://jenkins-ci.org/ 2 Visual SVN Server https://www.visualsvn.com/server/ 3 Tortoi ...