通过学习Lucene3.5.0的doc文档,对不同release版本号 lucene版本号的API修改做分析。最后找到了有价值的修改信息。

  • LUCENE-2302: Deprecated TermAttribute and replaced by a new CharTermAttribute. The change is backwards compatible, so mixed new/old TokenStreams all work on the same char[] buffer independent
    of which interface they use. CharTermAttribute has shorter method names and implements CharSequence and Appendable. This allows usage like Java's StringBuilder in addition to direct char[] access. Also terms can directly be used in places where CharSequence
    is allowed (e.g. regular expressions). (Uwe Schindler, Robert Muir)
  • 以上信息可以知道,原来的通过的方法已经不可以提取响应的Token了
    1. StringReader reader = new StringReader(s);
    2. TokenStream ts =analyzer.tokenStream(s, reader);
    3. TermAttribute ta = ts.getAttribute(TermAttribute.class);
  • 通过分析Api文档信息 可知,CharTermAttribute已经成为替换TermAttribute的接口
  • 因此我编写了一个样例来更好的从TokenStream中提取Token
    1. package com.segment;
    2.  
    3. import java.io.StringReader;
    4. import org.apache.lucene.analysis.Analyzer;
    5. import org.apache.lucene.analysis.Token;
    6. import org.apache.lucene.analysis.TokenStream;
    7. import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    8. import org.apache.lucene.analysis.tokenattributes.TermAttribute;
    9. import org.apache.lucene.util.AttributeImpl;
    10. import org.wltea.analyzer.lucene.IKAnalyzer;
    11.  
    12. public class Segment {
    13. public static String show(Analyzer a, String s) throws Exception {
    14.  
    15. StringReader reader = new StringReader(s);
    16. TokenStream ts = a.tokenStream(s, reader);
    17. String s1 = "", s2 = "";
    18. boolean hasnext= ts.incrementToken();
    19. //Token t = ts.next();
    20. while (hasnext) {
    21. //AttributeImpl ta = new AttributeImpl();
    22. CharTermAttribute ta = ts.getAttribute(CharTermAttribute.class);
    23. //TermAttribute ta = ts.getAttribute(TermAttribute.class);
    24.  
    25. s2 = ta.toString() + " ";
    26. s1 += s2;
    27. hasnext = ts.incrementToken();
    28. }
    29. return s1;
    30. }
    31.  
    32. public String segment(String s) throws Exception {
    33. Analyzer a = new IKAnalyzer();
    34. return show(a, s);
    35. }
    36. public static void main(String args[])
    37. {
    38. String name = "我是俊杰,我爱编程,我的測试用例";
    39. Segment s = new Segment();
    40. String test = "";
    41. try {
    42. System.out.println(test+s.segment(name));
    43. } catch (Exception e) {
    44. // TODO Auto-generated catch block
    45. e.printStackTrace();
    46. }
    47. }
    48.  
    49. }
  • 基于Lucene3.5.0怎样从TokenStream获得Token的更多相关文章

    1. solr&lucene3.6.0源码解析(二)

      上文描述了solr3.6.0怎么采用maven管理的方式在eclipse中搭建开发环境,在solr中,为了提高搜索性能,采用了缓存机制,这里描述的是LRU缓存,这里用到了 LinkedHashMap类 ...

    2. 谈谈基于OAuth 2.0的第三方认证 [下篇]

      从安全的角度来讲,<中篇>介绍的Implicit类型的Authorization Grant存在这样的两个问题:其一,授权服务器没有对客户端应用进行认证,因为获取Access Token的 ...

    3. 谈谈基于OAuth 2.0的第三方认证 [中篇]

      虽然我们在<上篇>分别讨论了4种预定义的Authorization Grant类型以及它们各自的适用场景的获取Access Token的方式,我想很多之前没有接触过OAuth 2.0的读者 ...

    4. 谈谈基于OAuth 2.0的第三方认证 [上篇]

      对于目前大部分Web应用来说,用户认证基本上都由应用自身来完成.具体来说,Web应用利用自身存储的用户凭证(基本上是用户名/密码)与用户提供的凭证进行比较进而确认其真实身份.但是这种由Web应用全权负 ...

    5. solr&lucene3.6.0源码解析(四)

      本文要描述的是solr的查询插件,该查询插件目的用于生成Lucene的查询Query,类似于查询条件表达式,与solr查询插件相关UML类图如下: 如果我们强行将上面的类图纳入某种设计模式语言的话,本 ...

    6. solr&lucene3.6.0源码解析(三)

      solr索引操作(包括新增 更新 删除 提交 合并等)相关UML图如下 从上面的类图我们可以发现,其中体现了工厂方法模式及责任链模式的运用 UpdateRequestProcessor相当于责任链模式 ...

    7. 基于Qt5.5.0的sql数据库、SDK_tts文本语音朗读的CET四六级单词背诵系统软件的编写V1.0

      作者:小波 QQ:463431476 请关注我的博客园:http://www.cnblogs.com/xiaobo-Linux/ 我的第二款软件:CET四六级单词背诵软件.基于QT5.5.0.sql数 ...

    8. 基于Qt5.5.0的sql,C++备忘录软件的编写

      我的第一个软件. 基于Qt5.5.0的 sql ,C++备忘录软件version1.0的编写 我用的Qt版本是5.5.0免配置编译器的版本,这里附上我使用的软件下载地址:http://download ...

    9. 基于Spark1.3.0的Spark sql三个核心部分

      基于Spark1.3.0的Spark sql三个核心部分: 1.可以架子啊各种结构化数据源(JSON,Hive,and Parquet) 2.可以让你通过SQL,saprk内部程序或者外部攻击,通过标 ...

    随机推荐

    1. 2、Python djang 框架下的word Excel TXT Image 等文件的下载

      2.python实现文件下载 (1)方法一.直接用a标签的href+数据库中文件地址,即可下载.缺点:word excel是直接弹框下载,对于image txt 等文件的下载方式是直接在新页面打开. ...

    2. Win7下通过easyBCD引导安装Ubuntu14.04

      Ubuntu14.04作为目前最新版本的ubuntu系统,相信很多人都想在自己的电脑上安装一下,然而系统的安装方法各式各样,u盘法.grub引导法等等,这里我将介绍在win7系统下用easyBCD软件 ...

    3. Android中基于Socket的网络通信

      1. Socket介绍 2. ServerSocket的建立与使用 3. 使用ServerSocket建立聊天服务器-1 4. 使用ServerSocket建立聊天服务器-2 5. 在Android中 ...

    4. centos7 systemctl grub2

      centos最小好化安装没有ifconfig命令 刚安装了centos7.0,最小化安装,发现没有ifconfig命令,虚拟机里面的网卡显示ens32,这是centos7.0的特点,要使用 ifcon ...

    5. BZOJ 1237 配对

      Description 你有\(n\)个整数\(A_{i}\)和\(n\)个整数\(B_{i}\).你需要把它们配对,即每个\(A_{i}\)恰好对应一 个\(Bp_{i}\).要求所有配对的整数差的 ...

    6. 学习VI的强文,新工作需要呀

      http://www.gentoo.org/doc/zh_cn/vi-guide.xml :set nu//用于给文本加行号的. :set nocompatible //启用 vi 兼容模式,一般是给 ...

    7. java rest版简单的webservice

      目前的webservice风格,rest应该是其中一种 还有种就是soap,rest是轻量级的,越来越流行.下面举一个简单例子说明下rest的用法. 1. 准备ws的jar和spring的jar,如何 ...

    8. BlockingQueue队列学习

      今天看了下BlockingQueue的几种实现,记录下以便以后复习. 首先来看一下BlockingQueue的家族成员: BlockingQueue除了先进先出外,还有两个操作:在队列为空时,获取元素 ...

    9. div+css页面居中代码

      普通div和html混写可以这样写,设置 text-align:center, margin:0px auto 最简单的方法就是 把你的body这样设置: <body style="t ...

    10. Java 理论与实践: JDK 5.0 中更灵活、更具可伸缩性的锁定机制

      新的锁定类提高了同步性 —— 但还不能现在就抛弃 synchronized JDK 5.0为开发人员开发高性能的并发应用程序提供了一些很有效的新选择.例如,java.util.concurrent.l ...