原文:Lucene.Net 2.3.1开发介绍 —— 二、分词(六)

Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStringReader类也是在新版本中引入的。这样改变,导致了2.3.1版本不得不修改2.1版以前的所有分词器。带来的另外一个问题的是,以前的一些现有分词器,拿到这里可能就不能用了。

要使用ReadToEnd还有另外一个解决方法——修改Lucene.Net源码。

在修改之前,我们需要知道ReusableStringReader作为StringReader的子类,为什么让ReadToEnd方法无效了。先查看.Net Framework StringReader源码关于ReadToEnd方法的那段。

代码 2.1.3.7
 
Code 1public override string ReadToEnd() 2{ 3    string str; 4    if (this._s == null) 5    { 6        __Error.ReaderClosed(); 7    } 8    if (this._pos == 0) 9    {10        str = this._s;11    }12    else13    {14        str = this._s.Substring(this._pos, this._length - this._pos);15    }16    this._pos = this._length;17    return str;18}

代码 2.1.3.7就是我们要找的源码,对比ReusableStringReader类,发现,在ReusableStringReader类里没有为父类——StringReader——的私有字段"_s"赋值。而赋值的方式就是调用构造函数。ReusableStringReader为什么没有那么做呢?这点是让人看不明白,不过看看它的java版本也就释然了。在java版本中有这么一个类,所以在dot net版本中也就出现了。这个类是完全按照Java代码克隆出来的,是工具转换处理的,翻译人员应该是没注意到这里可以用直接用StringReader,或者注意到了但是为了保持代码的一致性而故意没有转换过来。

因为ReusableStringReader实例化的时候给了StringReader一个空值,为了做最小改造,重新实例化StringReader并不是好主意。所以重载一个ReadToEnd方法是个不错的选择。

代码 2.1.3.8
 
Code 1/**//// <summary> 2/// 加入ReadToEnd方法,读取整个流的字符 3/// </summary> 4/// <returns>返回读取字符</returns> 5public override string ReadToEnd() 6{ 7    string str; 8    if (this.s == null) 9    {10        return string.Empty;    //如果为null,这里本来该报错的11    }12    if (this.upto == 0)13    {14        //当指针在开始位置,返回整个字符。15        //在调用了Read方法后,指针就会不在开始位置。16        str = this.s;17    }18    else19    {20        str = this.s.Substring(this.upto, this.left - this.upto);21    }22    this.upto = this.left;23    return str;24}

写好了代码2.1.3.8 再次运行 代码 2.1.3.3 ,就OK了,不会出现读不出的问题了。测试一下:

搜索词:英语
结果:
content:英语
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
-----------------------------------
搜索词:语法
结果:
content:语法
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
-----------------------------------
搜索词:单词
结果:
content:单词
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
我们要学好英语不但要学语法,单词还有口语。
-----------------------------------
搜索词:口语
结果:
content:口语
英语单词,语法,口语都很重要。
口语,语法,单词都是英语的重要组成部分。
我们要学好英语不但要学语法,单词还有口语。
-----------------------------------
搜索词:+content:"英" +content:"语" +content:"单" +content:"词"
结果:
+content:英 +content:语 +content:单 +content:词
-----------------------------------

结果和预料的一样,看来修改成功了。既然拿了源码,在用的不舒服的地方适当的修改修改还是很好的,呵呵。

当然在制作分词时,这个转换其实也可以不用的。可以直接拿缓冲字符来进行处理,那样速度会将会快那么一点。怎么做,还是大家思考一下吧,呵呵,在高级篇里将会有讲到。

现在二元分词器已经可以使用了,当然查询表达式也要跟着改变,如何构造查询表达式,在2.1.2 可以使用的内置分词讲到过一点,更多的还是留着后面讲,要不然内容就全放到分词里了。

二元分词比单字分词的优势是很明显的,达到了我们原先的目的:减小干扰。用户搜索的数据其实最好是给一个或者几个结果,而不是动辄上千,那和没筛选没什么区别。做搜索系统,目地就是能自动帮助用户得到他想要的东西,而不是给用户看看你有多少数据。

二元分词的劣势也充分地暴露了出来,那就是分词不准确。如果还是以二元分词为基础,尽量地让分词准确的话,可以做一些这样的考虑。比如对于中文数字按单字拆分,而对于某些特殊字,比如“的,啊,吗,呢”等助词也按单字拆分,这样就能用简单的分词来解决实际的。在小型的搜索系统中,二元分词已经足够使用了。如果还要追求更好的效果,那就要用词库匹配了。从自然语言上来说,基于语义分析当然是最好的。但是会产生另外的问题,因为分析业务的复杂,导致开发难度的加大运行速度变慢,这些都是使用时需要考虑的问题。

作为分词在一个阶段的结束篇,总感觉有点虎头蛇尾的味道。而如果现在讲基于词库,语言方面的分词感觉还是早了点,因此,这里就匆匆收笔,准备进入索引部分的探索。关于分词更加详细的应用将会在高级篇里展开。

Lucene.Net 2.3.1开发介绍 —— 二、分词(六)的更多相关文章

  1. Lucene.Net 2.3.1开发介绍 —— 二、分词(五)

    原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词 上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只 ...

  2. Lucene.Net 2.3.1开发介绍 —— 二、分词(三)

    原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构 从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关 ...

  3. Lucene.Net 2.3.1开发介绍 —— 二、分词(四)

    原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(四) 2.1.2 可以使用的内置分词 简单的分词方式并不能满足需求.前文说过Lucene.Net内置分词中StandardAnalyze ...

  4. Lucene.Net 2.3.1开发介绍 —— 二、分词(二)

    原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程 内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词 ...

  5. Lucene.Net 2.3.1开发介绍 —— 二、分词(一)

    原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯 ...

  6. Lucene.Net 2.3.1开发介绍 —— 四、搜索(二)

    原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(二) 4.3 表达式用户搜索,只会输入一个或几个词,也可能是一句话.输入的语句是如何变成搜索条件的上一篇已经略有提及. 4.3.1 观察 ...

  7. Lucene.Net 2.3.1开发介绍 —— 三、索引(二)

    原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(二) 2.索引中用到的核心类 在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类.其中Analyzer是索引建立的 ...

  8. Lucene.Net 2.3.1开发介绍 —— 三、索引(四)

    原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(四) 4.索引对搜索排序的影响 搜索的时候,同一个搜索关键字和同一份索引,决定了一个结果,不但决定了结果的集合,也确定了结果的顺序.那个 ...

  9. Lucene.Net 2.3.1开发介绍 —— 四、搜索(三)

    原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(三) Lucene有表达式就有运算符,而运算符使用起来确实很方便,但另外一个问题来了. 代码 4.3.4.1 Analyzer anal ...

随机推荐

  1. A2DP和AVRCP蓝牙音频传输协议的应用解释

    A2DP全名是Advenced Audio Distribution Profile 蓝牙音频传输模型拹定.A2DP 规定了使用蓝牙非同步传输信道方式,传输高质量音乐文件数据的拹议堆栈软件和使用方法, ...

  2. 自己python程序的并行修改

    遇到运算量大的程序,学习了下python并行运算的方法,在自己的程序上进行了修改,看看是否可以增加效率.原始代码是: import gt_apps as my_apps f=file('sample. ...

  3. H5前端面试题及答案(2)

    最近想着跳槽,但面试的邀约不多,内心有点烦躁.梳理梳理心情,跳槽季竞争也大,努力做好自己... 21.请设计一套方案,用于确保页面中js加载完全. <!doctype html> < ...

  4. Away3D带你360°漫游全景影像

    1代码展示 package { import away3d.containers.View3D; import away3d.controllers.HoverController; import a ...

  5. (step8.2.6)hdu 1848(Fibonacci again and again——组合博弈)

    题目大意:输入3个整数m,n,p,分别表示3堆石头中的石头个数 解题思路: 1)斐波那契数列的第16个数fib[16] == 1597 2)(sg[m]^sg[n]^sg[p])   .一定要加括号, ...

  6. 清华集训2014 day1 task3 奇数国

    题目 题目看起来好像很难的样子!其实不然,这是最简单的一道题. 算法 首先要注意的是: \(number \cdot x + product \cdot y = 1\) ,那么我们称\(number\ ...

  7. <Win32_18>平滑的人物走动 —— 解决闪屏

    今天咋一看,发现很久没写博客了 的确,开学之后,写博客的时间越来越少了…… 今天来做一个比较实用的小应用——平滑的人物走动,同时解决常见的闪屏问题.实现透明位图 这些技术在游戏开发中是很常见的 --- ...

  8. 分享一个嵌入式httpdserver开发库 - boahttpd library

    http://sourceforge.net/projects/boahttpd/ 一个C接口的开发库,适用于 windows/linux/或其它嵌入式平台,支持CGI扩展,支持多线程.採用面向对象开 ...

  9. Swift - iOS中各种视图控制器(View Controller)的介绍

    在iOS中,不同的视图控制器负责不同的功能,采用不同的风格向用户呈现信息.下面对各个视图控制器做个总结: 1,标准视图控制器 - View Controller 这个控制器只是用来呈现内容.通常会用来 ...

  10. android 从其他app接收分享的内容

    Receiving Content from Other Apps[从其他app接收分享的内容] 就像你的程序能够发送数据到其他程序一样,其他程序也能够简单的接收发送过来的数据.需要考虑的是用户与你的 ...