Lucene.Net 2.3.1开发介绍 —— 三、索引（三）

3、Field配置所产生的效果

索引数据，简单的代码，只要两个方法就搞定了，而在索引过程中用到的一些类里最简单，作用也不小的就是Field，接下来看看Field的各项设置都会有什么样的效果。

代码 3.1

 

Code 1/**//// <summary> 2/// 索引数据 3/// </summary> 4private void Index() 5{ 6    Analyzer analyzer = new StandardAnalyzer(); 7    IndexWriter writer = new IndexWriter("IndexDirectory", analyzer, true); 8    AddDocument(writer, "我的祖国", "英语单词"); 9    AddDocument(writer, "祖国万岁", "英语语法");10    AddDocument(writer, "祖国", "英语单元");11    AddDocument(writer, "人民", "单词测试");12    writer.Optimize();13    writer.Close();14}15/**//// <summary>16/// 为索引准备数据17/// </summary>18/// <param name="writer">索引实例</param>19/// <param name="content">需要索引的数据</param>20void AddDocument(IndexWriter writer, string title, string content)21{22    Document document = new Document();23    document.Add(new Field("title", title, Field.Store.Yes, Field.Index.TOKENIZED));24    document.Add(new Field("content", content, Field.Store.YES, Field.Index.TOKENIZED));25    writer.AddDocument(document);26}

代码3.1就是准备好的索引过程。运行，然后呢？这里要说到一个工具，luke(lukeall)这是一个java平台下的Lucene索引管理工具。抽空，我实现了一个简单的dotNet版本的，详细请查看 NLuke版本更新信息。接下来的索引，会用这个软件对索引进行分析。

现在就可以开始调整AddDocument方法中Field实例化时的参数了，看看调整后会对索引造成什么样的影响。这里以title对应的Field为例。

3.1 Field.Stroe选项

这个选项有3个值，下面来分析下效果。

3.1.1 Field.Stroe.Yes

刚好，默认的就是这个。用这选项建完索引，然后用NLuke查看，发现，title这个字段有，而且有8个Term。切换到文档区域，发现文档的title有内容。这个选项表示的就是存储，所以，这些是正常状态。

3.1.2 Field.Stroe.No

title也有8个Term，但是文档中没有字段了。也就是说现在可以用这个字段来搜索，但是搜索结果Hits中，不能用Document实例的Get方法来取得字段的内容了。那就是字段内容没有被存储。

3.1.3 Field.Store.COMPRESS

设置为COMPRESS，报错了，错误信息“Compression support not configured”，是个配置错误。这个错误在SupportClass，CheckCompressionSupport方法被抛出。这里读取了一个配置文件，然后根据配置文件指定的类名来创建实例。这个类必须实现接口 SupportClass.CompressionSupport.ICompressionAdapter。在Lucene.Net中内置了一个“SharpZipLibAdapter”，但是需要有编译符号SHARP_ZIP_LIB才能编译进去。为了看看效果，所以给项目添加SHARP_ZIP_LIB符号，然后增加app.config配置文件，在appseting中添加Lucene.Net.CompressionLib.class键，值是SharpZipLibAdapter。然后下载 ICSharpCode.SharpZipLib.dll,这个dll才是真正实现压缩算法的。下载地址： http://sourceforge.net/project/downloading.php?groupname=sharpdevelop&filename=SharpZipLib_0855_Bin.zip&use_mirror=nchc

把ICSharpCode.SharpZipLib.dll引入项目，就可以使用COMPRESS这个选项了。效果与Yes是一样的。

3.1.4 效果对比

对于Field.Stroe.Yes，产生字节大小是：627字节

Field.Stroe.COMPRESS是：661字节

Field.Stroe.No是：579字节

使用Field.Stroe.COMPRESS反而是占用空间最大，这不符合原先的设想。那是因为我们索引的文本太小，你可以试试看增加索引的内容，再对比小效果。

3.2 Field.Index选项

现在把Field.Stroe设置为Field.Stroe.Yes，接着来看看Field.Index的效果。

3.2.1 Field.Index.TOKENIZED

这个选项是用来控制分词的，TOKENIZED表明需要分词。运行后title有8个Term，没有问题。

3.2.2 Field.Index.UN_TOKENIZED

运行后只有4个Term，而且Term是原先写入的内容，和存储的完整内容没有区别。

3.2.3 Field.Index.NO

和预想的一样，title的Term一个也没有了。

3.2.4 Field.Index.NO_NORMS

效果似乎和Field.Index.UN_TOKENIZED一样，但是它把词条的附加信息全去掉了。比如，它将不再记录词的正太分布数据一类的东西。这样可以减少占用的空间。而且这个用法也有一个条件，就是只要开启，就要全部开启，否则会失效。比如索引了四条数据没使用NO_NORMS，而接下来的两条使用了NO_NORMS，那么前面四条的数据效果，那么接下来的两条数据实际上并没有产生NO_NORMS的效果。

3.2.5 效果分析

1，2，4三种情况虽然不同，但是都可以搜索，而第三种情况，也就是设置为NO，则不可以搜索。第一种情况，可以分词搜索，并且可以排序。而2，4则不能分词搜索，第四种情况不可以排序（不可以排序指，不能按照词出现的频率进行排序）。

从上面也可以看出，假设Field.Store设置为NO,而Field.Index也设置为NO，那就和没添加是一样的了。Field.Store是给你取完整数据用的，而Field.Index则是给搜索用的。在极端的情况下，可以设置Field.Store为NO，而Field.Index可以搜索，等取数据的时候再从数据源（比如数据库），它们中间有个关联法则，那样可以有效的减轻Lucene的工作压力。

3.3 Field.TermVector

Field.TermVector选项，现在工具还没实现这个功能，不过可以自己编码来实现。

代码 3.3.5.1

Code 1[Test] 2public void TermVectorTest() 3{ 4    IndexReader reader = IndexReader.Open("IndexDirectory"); 5    int numDoc = reader.NumDocs(); 6    for (int i = 0; i < numDoc; i++) 7    { 8        Console.WriteLine("Doc:#" + i + "----------------------------"); 9        Document doc = reader.Document(i);10        Field field = doc.GetField("title");11        Console.WriteLine("是否被索引：" + field.IsIndexed());12        Console.WriteLine("是否被存储：" + field.IsStored());13        Console.WriteLine("是否存储开始位置：" + field.IsStorePositionWithTermVector());14        Console.WriteLine("是否存储结束位置：" + field.IsStoreOffsetWithTermVector());15        Console.WriteLine("是否保存了向量：" + field.IsTermVectorStored());16        Console.WriteLine("是否分词：" + field.IsTokenized());17        Console.WriteLine("--------------------------------------------");18    }19    reader.Close();20}

设置Field.TermVector后，可以用代码3.3.5.1检查效果。你可以自己去试试。

Lucene.Net 2.3.1开发介绍 —— 三、索引（三）的更多相关文章

Lucene.Net 2.3.1开发介绍 —— 四、搜索（三）
原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(三) Lucene有表达式就有运算符,而运算符使用起来确实很方便,但另外一个问题来了. 代码 4.3.4.1 Analyzer anal ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（七）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(七) 5.IndexWriter 索引这部分最后讲的是IndexWriter.如果说前面提到的都是数据的结构,那么IndexWriter ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（六）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(六) 2.2 Field的Boost 如果说Document的Boost是一条线,那么Field的Boost则是一个点.怎么理解这个点呢 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（五）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(五) 话接上篇,继续来说权重对排序的影响.从上面的4个测试,只能说是有个直观的理解了.“哦,是!调整权重是能影响排序了,但是好像没办法来 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（四）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(四) 4.索引对搜索排序的影响搜索的时候,同一个搜索关键字和同一份索引,决定了一个结果,不但决定了结果的集合,也确定了结果的顺序.那个 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（二）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(二) 2.索引中用到的核心类在Lucene.Net索引开发中,用到的类不多,这些类是索引过程的核心类.其中Analyzer是索引建立的 ...
Lucene.Net 2.3.1开发介绍 —— 三、索引（一）
原文:Lucene.Net 2.3.1开发介绍 -- 三.索引(一) 在说索引之前,先说说索引是什么?为什么要索引?怎么索引? 先想想看,假如现在有一个文本,我们会怎么去搜索.比如,有一个string ...
Lucene.Net 2.3.1开发介绍 —— 二、分词（三）
原文:Lucene.Net 2.3.1开发介绍 -- 二.分词(三) 1.3 分词器结构 1.3.1 分词器整体结构从1.2节的分析,终于做到了管中窥豹,现在在Lucene.Net项目中添加一个类关 ...
Lucene.Net 2.3.1开发介绍 —— 四、搜索（一）
原文:Lucene.Net 2.3.1开发介绍 -- 四.搜索(一) 既然是内容筛选,或者说是搜索引擎,有索引,必然要有搜索.搜索虽然与索引有关,那也只是与索引后的文件有关,和索引的程序是无关的,因此 ...

随机推荐

.yml是什么文件
YAML(IPA: /ˈjæməl/,尾音类似camel骆驼)是一个可读性高,用来表达资料序列的编程语言.YAML参考了其他多种语言,包括:XML.C语言.Python.Perl以及电子邮件格式RFC ...
项目总结SpringMVC+hibernate框架 web.xml 分析（2）
紧接项目总结SpringMVC+hibernate框架原理(MVC) applicationContext.xml 文件(3) 这一步讲解项目模块化的配置,项目中每个模块配置一个文件,命名规则为 ...
linux下Python网络编程框架-Twisted安装
Twisted是python下的用来进行网络服务和应用程序编程的框架,安装Twisted前需要系统预先安装有python. 一.安装Twisted http://twistedmatrix.com/R ...
自定义类似QMutexLocker的CMutexLocker
最近做项目遇到一个需求,有一个buttonSlot()执行要耗点时间,为了防止用户无限制的乱点出现问题,考虑加一个互斥锁,使得每次执行完后才允许执行下一次.大概意思是: //QMutex m_mut ...
Android 去掉Activity的跳转动画
startActivity或finish的时候调用一句话即可: overridePendingTransition(0, 0);
Web网页中内嵌Activex的Activex插件开发 .
转载自: http://blog.csdn.net/tttyd/article/details/5258096 源代码下载 http://files.cnblogs.com/tttyd/Activex ...
MDCC为移动开发者服务：一看、一聊、一聚
MDCC为移动开发者服务:一看.一聊.一聚-CSDN.NET MDCC为移动开发者服务:一看.一聊.一聚发表于2013-11-05 20:54| 2698次阅读| 来源CSDN| 6 ...
Android开发之SoundPool使用具体解释
使用SoundPool播放音效假设应用程序常常播放密集.急促而又短暂的音效(如游戏音效)那么使用MediaPlayer显得有些不太适合了.由于MediaPlayer存在例如以下缺点: 1) ...
Ubuntu Gnome下如何改动应用的图标icon
我在我机器上安装了一个matlab,但在软件搜索里找不到matlab. 我发现是matlab没有相应的.desktop文件. 顺便我将matlab的图标也改动下.过程例如以下: 1.准备一个icon图 ...
Xcode6使用storyboard在TabBarController上建立三个以上Item
在Xcode5上做以上的操作没有问题,这次是要在Xcode6上实现之,特记录以备用. 首先新建一个storyboard文件.取名Custom.storyboard.拖动菜单添加一个TabBarComt ...

Lucene.Net 2.3.1开发介绍 —— 三、索引（三）

Lucene.Net 2.3.1开发介绍 —— 三、索引（三）的更多相关文章

随机推荐

热门专题