WEBUS2.0 In Action - 搜索操作指南 - (1)
上一篇:WEBUS2.0 In Action - 索引操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(2)
1. IQueriable中内置的搜索功能
在Webus.Index.IQueriable中内置了一些基本的搜索功能:
public interface IQueriable
{
Document SelectDoc(); //获取第一个Document对象, 作为样本
List<Document> SelectDoc(int[] docIds); //根据docId获取Document
List<IndexDocInfo> SelectIndex(string fieldname, string keyword, int length); //在指定字段中根据关键词搜索, 只返回指定长度的数据
List<string> SelectPostfixKeyword(string postfix); //搜索满足后缀条件的关键词
List<string> SelectPrefixKeyword(string prefix); //搜索满足前缀条件的关键词
List<string> SelectRegexKeyword(string pattern, RegexOptions options); //搜索满足正则表达式的关键词
List<string> SelectWildcardKeyword(string wildcard); //搜索满足通配符的关键词
List<SequenceDocInfo> SelectSequence(string fieldname, object min, object max, bool asc, int length); //在指定字段中做范围搜索, 支持排序, 只返回指定长度的数据
List<SequenceDocInfo> SelectSequence(string fieldname, params int[] docIds); //在指定字段中根据docId来获取数据
List<string> GetKeywords(); //获取全部关键词
}
IQueryiable.SelectDoc() - 有时候用户需要知道索引中Document的结构, 从而可以对索引选项进行调整. 本方法就能够将索引列表中的第一个Document对象返回给调用方.
IQueriable.SelectDoc(int[] docIds) - 根据传入的docId列表来检索对应的Document列表.
IQueriable.SelectIndex(string fieldname, string keyword, int length) - 在字段fieldname中搜索关键词keyword, 并且只返回前length个结果. 这是Indexer的核心方法之一, 它的作用是在索引中检索数据. 这里特别要注意的是length这个参数, 其默认值是int.MaxValue, 但是WEBUS2.0 SDK对性能进行了深度优化, 在检索的时候只会扫描必需的索引文件: 假设最终生成的索引文件有3个片段, 我们对keyword进行搜索, 指定length=10. 在第一个片段index1中找到了6条结果, 在第二个片段index2中又找到了4条结果, 那么程序将跳过第三个片段index3直接返回, 从而节约系统开销. 因此在实际使用时合理的设置length, 是能够明显提升性能的.
IQueriable.SelectSequence(string fieldname, object min, object max, bool asc, int length) - 在WEBUS2.0中, 如果一个字段的属性被设置为FieldAttribute.Sort, 则意味着在编制索引的时候会为其生成序列 (Sequence). 比如Document结构如下:
Name : string : FieldAttribute.AnalyseIndex
Age : double : FieldAttribute.Sort
那么所有的Age字段将会被插入到一个排序表中, 也就是所谓序列. 通过SelectSequence方法, 我们就可以对这个序列进行检索, 从而实现范围查询.
p.s. 个人窃以为这是WEBUS2.0 SDK优于Lucene的一个功能点, 在Lucene中, 如果要实现同样的范围查询, 只能够用多次全文搜索来模拟, 比如查询 10 <= Age < 20的结果, 就需要模拟10个对Age的搜索, 分别是Age=10, Age=11, ... Age=19. 而如果Age=15.5, 虽然是落在这个范围内, 但是用这种模拟的方式是无论如何也检索不到的. 因此孰优孰劣, 一比便知.
IQueriable.SelectPost/Pre/Regex/WildcardKeyword(...) - 这4个方法是WEBUS2.0中的另一个亮点, 也是非常有意思的检索方法. WEBUS2.0在编制索引的时候, 同时对关键词本身也编制了索引. 这种增强的索引策略可以为我们带来多种多样的检索乐趣. 比如在前面代码搜索器的例子中, 我们要搜索以"Client"结尾的结果集. 这个时候就是利用上PostfixKeyword的功能来实现的: 首先搜索所有以"Client"结尾的关键词列表, 然后对每个关键词分别进行搜索, 最后将结果合并起来返回到调用端.
利用这些基本方法, 就能够满足简单的搜索要求. 但是对于大部分应用, 我们一定会有更加复杂的应用需求, 这个时候就需要用到Webus.Search.Query和Webus.Search.ISearcher. 它们的功能非常强大, 能够满足各种全文搜索需求. 我将在后文中详细介绍.
相关信息及WEBUS2.0 SDK下载:继续我的代码,分享我的快乐 - WEBUS2.0
WEBUS2.0 In Action - 搜索操作指南 - (1)的更多相关文章
- WEBUS2.0 In Action - 搜索操作指南 - (2)
上一篇:WEBUS2.0 In Action - 搜索操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(3) 2. 使用Query Query是所有查询的基类, 它一 ...
- WEBUS2.0 In Action - 搜索操作指南 - (3)
上一篇:WEBUS2.0 In Action - 搜索操作指南(2) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(4) 3. 评分机制 (Webus.Search.IHitSc ...
- WEBUS2.0 In Action - 搜索操作指南 - (4)
上一篇:WEBUS2.0 In Action - 搜索操作指南(3) 6. 搜索多个索引 为了提升性能, 我们可以从多个索引同时进行搜索, Webus.Search.MultiSearcher提供了相 ...
- WEBUS2.0 In Action - 索引操作指南(2)
上一篇:WEBUS2.0 In Action - 索引操作指南(1) | 下一篇:WEBUS2.0 In Action - 搜索操作指南(1) 3. 添加.删除.撤销删除和修改文档 在WEBUS中要将 ...
- WEBUS2.0 In Action - [源代码] - C#代码搜索器
最近由于工作的需要, 要分析大量C#代码, 在数万个cs文件中搜索特定关键词. 这是一项非常耗时的工作, 用Notepad++要运行接近半个小时. 于是我利用WEBUS2.0 SDK创建了一个代码搜索 ...
- 第二篇——Struts2的Action搜索顺序
Struts2的Action的搜索顺序: 地址:http://localhost:8080/path1/path2/student.action 1.判断package是否存在,例如:/pat ...
- Struts2学习三----------Action搜索顺序
© 版权声明:本文为博主原创文章,转载请注明出处 Struts2的Action的搜索顺序 http://localhost:8080/path1/path2/student.action 1)判断pa ...
- Struts2.0 去掉action后缀名
刚刚接触Struts2.0,发现默认请求都会带着后缀名:action 就如下图,url地址中会暴露login.action(请原谅struts拼写错误..) 作为一个URL简洁爱(chu)好(nv)者 ...
- 帝国cms7.0修改默认搜索模版中的分页[!--show.page--]
修改默认搜索模版的分页是在e/class/connect.php下 搜索下function page1就是我们要修改的分页了 下面贴上我修改后的分页 //前台分页 function page1($nu ...
随机推荐
- ASP.NET 4.5新特性WebAPI从入门到精通
在新出的MVC4中,增加了WebAPI,用于提供REST风格的WebService,新生成的WebAPI项目和典型的MVC项目一样,包含主要的Models.Views.Controllers等文件夹和 ...
- HDU4512完美队形I && HDU1423 Greatest Common Increasing Subsequence (LCIS)
填坑的时候又到啦,校赛因为不会LCIS所以吃了大亏,这里要补起来.LCIS就是在两个串里找最长上升子序列,相关的博客有很多,这里自己就不写那么多了. http://www.cnblogs.com/ja ...
- D&F学数据结构系列——AVL树(平衡二叉树)
AVL树(带有平衡条件的二叉查找树) 定义:一棵AVL树是其每个节点的左子树和右子树的高度最多差1的二叉查找树. 为什么要使用AVL树(即为什么要给二叉查找树增加平衡条件),已经在我之前的博文中说到过 ...
- java 如何连接MySql数据库
利用jdbc方式连接数据库. 1.添加mysql驱动jar包 我用的是这个驱动包mysql-connector-java-5.1.26-bin.jar 添加方式: 2.加载MySql驱动类 priva ...
- (1)搭建opencv-android环境
前言: 本文目的是指导在windows平台搭建一个opencv for android 的开发环境,作者参考了很多网上的教程,本文所使用的各种软件.插件都是截止到写这篇文章的最新版本,作者在实际搭建环 ...
- SQL注入攻击
SQL注入攻击是黑客对数据库进行攻击的常用手段之一.随着B/S模式应用开发的发展,使用这种模式编写应用程序的程序员也越来越多.但是由于程序员的水平及经验也参差不齐,相当大一部分程序员在编写代码的时候, ...
- Linux - wxWidgets安装和编译HelloWorld
安装参考http://codelite.org/LiteEditor/WxWidgets30Binaries#toc2 源 /etc/apt/source.list deb http://repos. ...
- 自己的gitignore文件
*.bak*.txt*.vm.gitignore#svn.svn/# built application files*.apk*.ap_ # files for the dex VM*.dex # J ...
- weka平台
weka平台界面简介 纵向排列的四个主要功能 1.探索(写自己的代码) 2.实验(比较算法) 3.可视化 4.命令行 1.探索 先将weka-src.jar文件解压到一个文件夹 将文件夹导入到Elip ...
- servlet学习笔记三
Servlet主要内容: 1)状态跟踪 一.状态跟踪 HTTP协议是无状态协议,即请求与请求之间没有任何关系,也就是不会记住任何数据. 但若想在请求间传递数据,怎么办?web里的三个基本容器对象可以解 ...