Lucene.Net 2.3.1开发介绍 —— 二、分词（四）

【Lucene.Net 2.3.1开发介绍 —— 二、分词（四）】的更多相关文章

Lucene.Net 2.3.1开发介绍 —— 二、分词（六）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(六) Lucene.Net的上一个版本是2.1,而在2.3.1版本中才引入了Next(Token)方法重载,而ReusableStringReader类也是在新版本中引入的.这样改变,导致了2.3.1版本不得不修改2.1版以前的所有分词器.带来的另外一个问题的是,以前的一些现有分词器,拿到这里可能就不能用了. 要使用ReadToEnd还有另外一个解决方法——修改Lucene.Net源码. 在修改之前,我们需要知道ReusableSt…

Lucene.Net 2.3.1开发介绍 —— 二、分词（五）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(五) 2.1.3 二元分词上一节通过变换查询表达式满足了需求,但是在实际应用中,如果那样查询,会出现另外一个问题,因为,那样搜索,是只要出现这个字,不管它出现在什么位置.这就产生了上一小节开头讲的,对准确性产生了极大干扰.比如,如果有一段这样的话:“这是一个英雄!他有无法用词汇形容的孤单,但是他并没有用言语来表达.”这句话包含了“英语单词”这四个字,但是却和“英语单词”一点关系都没有.首先想到的解决方法,就是把句子按词来划分…

Lucene.Net 2.3.1开发介绍 —— 二、分词（三）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关系图,把TokenStream和他的儿孙们统统拉上去,就能比较好的把握他们之间的关系. 图 1.3.1.1 如图1.3.1.1 就是他们的类关系图.看出如果要做一个分词器,最短的路,就是继承第二代,成为第三代.然后再写一个Analyzer的子类,专门用来做新分词器的适配器就好了.转换器. 呵呵,写…

Lucene.Net 2.3.1开发介绍 —— 二、分词（四）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(四) 2.1.2 可以使用的内置分词简单的分词方式并不能满足需求.前文说过Lucene.Net内置分词中StandardAnalyzer分词还算比较实用(见1.1.2小节).StandardAnalyzer为什么能满足我们的部分需求,而它又有哪些不足呢?看分词的好坏还是要从效果说起.简单的说,在中英文混合的情况下,StandardAnalyzer会把英文按空格拆,而中文则按单字拆.因为中文是按单字拆,所以对分词的准确性起到了干扰,…

Lucene.Net 2.3.1开发介绍 —— 二、分词（二）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(二) 1.2.分词的过程 1.2.1.分词器工作的过程内置的分词器效果都不好,那怎么办?只能自己写了!在写之前当然是要先看看内置的分词器是怎么实现的了.从1.1分析分词效果,可以看出KeywordAnalyzer这个分词器最懒惰,基本什么事情也没做.并不是它不会做,而是我们没找到使用它的方法,就像手上拿着个盒子,不知道里面是什么,就不知道这个是干嘛的,有什么用.打开盒子,那就是要查看源代码了! 代码 1.2.1.1 Code}…

Lucene.Net 2.3.1开发介绍 —— 二、分词（一）

原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(一) Lucene.Net中,分词是核心库之一,当然,也可以将它独立出来.目前Lucene.Net的分词库很不完善,实际应用价值不高.唯一能用在实际场合的StandardAnalyzer类,效果也不是很好.内置在Lucene.Net里的分词都被放在项目的Analysis目录下,也就是Lucene.Net.Analysis命名空间下.分词类的命名一般都是以“Analyzer”结束,比如StandardAnalyzer,StopAnal…

Lucene.Net 2.3.1开发介绍 —— 四、搜索（二）

原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(二) 4.3 表达式用户搜索,只会输入一个或几个词,也可能是一句话.输入的语句是如何变成搜索条件的上一篇已经略有提及. 4.3.1 观察表达式在研究表达式之前,一定要知道,任何一个Query都会对于一个表达式.不光可以通过Query构造表达式,还可以通过拼接字符串构造.这里说的观察表达式是指,用Query完成查询语句后,用ToString()方法输出Query的表达式.很简单是吧,呵呵. 4.3.2 表达式的与或非“与或非”让我想起…

【Lucene.Net 2.3.1开发介绍 —— 二、分词（四）】的更多相关文章

Lucene.Net 2.3.1开发介绍 —— 二、分词（六）

Lucene.Net 2.3.1开发介绍 —— 二、分词（五）

Lucene.Net 2.3.1开发介绍 —— 二、分词（三）

Lucene.Net 2.3.1开发介绍 —— 二、分词（四）

Lucene.Net 2.3.1开发介绍 —— 二、分词（二）

Lucene.Net 2.3.1开发介绍 —— 二、分词（一）

Lucene.Net 2.3.1开发介绍 —— 四、搜索（二）

Lucene.Net 2.3.1开发介绍 —— 三、索引（二）

Lucene.Net 2.3.1开发介绍 —— 三、索引（四）

Lucene.Net 2.3.1开发介绍 —— 四、搜索（三）