Lucene的DocFieldProcessor类】的更多相关文章

DocFieldProcessor类的任务1 按顺序存储所有的field和对应的fieldinfo2 为当前这篇doc的field按照fieldname来建立hash索引3 调用InvertedDocConsumer类(抽象),对field的内容分词和建立内存索引 DocFieldProcessor类主要用到的其他类DocFieldProcessorPerField类的对象负责存放一个fieldinfo和其对应的field(可能是多个,他们的fieldinfo相同),next成员可以指向下一个D…
  转自:http://blog.csdn.net/pukuimin1226/article/details/17558247 添加:2013-12-25 更新:2013-12-26 新增分页功能. 更新:2013-12-27 新增按分类查询功能,调整索引行新增记录的图片字段. 最新盘古分词dll和词典管理工具下载:http://pangusegment.codeplex.com/ 词典下载:http://pangusegment.codeplex.com/releases/view/47411…
把Lucene的查询当成sql的查询,也许会笼统的明白些query的真相了. 查询分为大致两类,1:精准查询.2,模糊查询. 创建测试数据. private Directory directory; private IndexReader reader; private String[] ids = {"1","2","3","4","5","6"}; private String[]…
介绍两种全文检索的技术. 1.  lucene+ 中文分词(IK) 关于lucene的原理,在这里可以得到很好的学习. http://www.blogjava.net/zhyiwww/archive/2006/07/07/57122.html 本帖主要贴几个关于lucene的工具类. 索引建立 package com.lpm.fanger.search.base; import java.io.File; import java.io.IOException; import java.text.…
部分知识点的梳理,参考<lucene实战>及网络资料 1.基本概念 lucence 可以认为分为两大组件: 1)索引组件 a.内容获取:即将原始的内容材料,可以是数据库.网站(爬虫).文本转换为lucence的Docment Docment 为若干个带值得域 b.文档分析:利用分词器对文档进行分析: c.建立索引:根据文档分析的结构建立索引文件: 2)搜索组件 a.建立查询:即将用户请求转换为搜索引擎支持的查询对象格式: b.执行搜索查询:并反馈Document结果集: 2.官方样例代码分析…
检索内容,一般的程序员第一时间想到的是sql的like来做模糊查询,其实这样的搜索是比较耗时的.已经有lucene帮我们 封装好了,lucene采用的是分词检索等策略. 1.lucene中的类描述 IndexWriter:lucene中最重要的的类之一,它主要是用来将文档加入索引,同时控制索引过程中的一些参数使用. Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本.常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析…
本人看到这篇非常不错的Lucene.Net入门基础教程,就转载分享一下给大家来学习,希望大家在工作实践中可以用到. 一.简单的例子 //索引Private void Index(){    IndexWriter writer = new IndexWriter(@"E:\Index", new StandardAnalyzer());    Document doc = new Document();    doc.Add(new Field("Text",&qu…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 代码 先看代码,后面再一一讲解 引入命名空间: using Lucene.Net.Store; using System.IO;…
本文转载http://blog.csdn.net/jspamd/article/details/8194919 不同的Lucene分析器Analyzer,它对TokenStream进行分词的方法是不同的,这需要根据具体的语言来选择.比如英文,一般是通过空格来分割词条,而中文汉字则不能通过这种方式,最简单的方式就是单个汉字作为一个词条. TokenStream是通过从设备或者其他地方获取数据源而构造的一个流,我们要执行分词的动作,应该对这个TokenStream进行操作. TokenStream也…
http://www.blogjava.net/hoojo/archive/2012/09/06/387140.html**************************************** 1. 全文检索系统与Lucene简介 1.1 什么是全文检索与全文检索系统 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式.这个过程类似于通过字典中…
文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充 项目结构图如下: IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典.谷歌拼音词库下载: http://ishare.iask.sina.com.cn/f/14446921.html?from=like在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml v…
org.apache.lucene.demo.IndexFiles类中,使用递归的方式去索引文件.在构造了一个IndexWriter索引器之后,就可以向索引器中添加Doucument了,执行真正地建立索引的过程.遍历每个目录,因为每个目录中可能还存在目录,进行深度遍历,采用递归技术找到处于叶节点处的文件(普通的具有扩展名的文件,比如my.txt文件),然后调用如下代码中红色部分: static void indexDocs(IndexWriter writer, File file) throw…
1. Lucene简介 Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎.Lucene以其方便使用.快速实施以及灵活性受到广泛的关注.它可以方便地嵌入到各种应用中实现针对应用的全文索引.检索功能. 2. lucene 的包结构 1.analysis对需要建立索引的文本进行分词.过滤等操作 2.standard是标准分析器 3.document提供对Document和Field的各种操作的支持. 4.index是最重要的包,用于向Lucene提供建立索引时各种操作的支持 5.q…
Lucene是一个信息检索工具库,而不是一个完整的搜索程序 搜索程序 Lucene索引核心类 Lucene索引核心类: Document: 文档对象代表一些域(field)的集合 Field: 每个文档都包含一个或多个不同命名的filed,这些field包含在Field类中 Analyzer: 文本文件再被索引前需要经过Analyzer(分析器)处理 IndexWriter: 写索引操作(新建索引.打开已有索引.更新已有信息.删除已有信息) Directory: 描述Lucene索引的存放位置…
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): package test.lucene; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.docu…
今天在使用lucene的时候,想直接在Controller中返回json对象,于是在Spring中配置了JackSon的converter: <bean id="jacksonMessageConverter" class="org.springframework.http.converter.json.MappingJacksonHttpMessageConverter"></bean> <bean class="org.s…
一般的网站都会有都会有搜索的功能,一般实现搜索主要有三种方案 第一种是最差的,也是最不推荐的,使用数据库的模糊查询例如select * form table where 字段 like XXX,这种查询的缺点很明显: (1)       无法查找几个关键词不连在一起的情况 (2)       全表扫描 效率低下 第二种:使用SqlServer的全文本检索功能 举例:select * form table where msg = ‘江苏南京’ 这是就可以写成select * form table…
Reference: http://blog.csdn.net/napoay/article/details/51477586 一.选题 工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取.索引和检索.网页数 目不少于 10 万条.能按相关度.时间.热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类. 要求: 有相关搜索推荐.snippet 生成.结果预览 (鼠标移到相关结果, 能预览) 功能 二.项目线上访问地址 项目访问地址:http://120.27.…
0引言 随着万维网的发展和大数据时代的到来,每天都有大量的数字化信息在生产.存储.传递和转化,如何从大量的信息中以一定的方式找到满足自己需求的信息,使之有序化并加以利用成为一大难题.全文检索技术是现如今最普遍的信息查询应用,生活中利用搜索引擎,在博客论坛中查找信息,这些搜索的核心原理就是本文要实现的全文检索技术.随着文档信息数字化的实现,将信息有效存储并及时准确的提取是每一个公司.企业和单位要做好的基础.针对英文的全文检索已经有很多成熟的理论和方法,开放源代码的全文检索引擎Lucene 是Apa…
1.lucene初始化 // @Value("${lucene.index.path}") private String indexPath = "/Users/vitoyan/Downloads/Projects/jeesite-demo/lucene_index"; private Directory directory; private DirectoryReader reader; @PostConstruct public void init() { tr…
分词和查询都是以词项为基本单位,词项是词条化的结果.在Lucene中分词主要依靠Analyzer类解析实现.Analyzer类是一个抽象类,分词的具体规则是由子类实现的,所以对于不同的语言规则,要有不同的分词器 1. StopAnalyzer      停用词分词器:能过滤词汇中的特定字符串和词汇,并且完成大写转小写的功能. 2. StandardAnalyzer      标准分词器:根据空格和符号来完成分词,还可以完成数字.字母.E-mail地址.IP地址以及中文字符的分析处理,还可以支持过…
Lucene简介 Lucent:Apache软件基金会Jakarta项目组的一个子项目,Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻.在Java开发环境里Lucene是一个成熟的免费开源工具.就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库. -- [ 百度百科 ] 数据库索引和Lucene检索对比 比较项 Lucene检索 数据库检索 数据检索 从Lucene的索引文件中检出 由数据库索引检索记录 索引结构 Document(文档) Re…
问题 现在给出很多份文档,现在对某个搜索词感兴趣,想找到相关的文档. 简单搜索 一种简单粗暴的做法是: 1.读取每个文档:2.找到其中含有搜索词的文档:3.对找到的文档中搜索词出现的次数统计:4.根据搜索词统计次数对文档按降序排序. 这称之为信息获取(Information Retrieval, IR),也叫简单搜索 普通IR方案存在的问题:    文档的体积增大或者数量增多,算法效率会下降    改进搜索的方案 Lucene项目对文档进行索引来快速搜索. 问题又来了:仅有索引仍不够,还有: 链…
ava.lang.AbstractMethodError: org.apache.lucene.analysis.Analyzer.createComponents(Ljava/lang/String;)Lorg/apache/lucene/analysis/Analyzer$TokenStreamComponents;    at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:176)    at org.apach…
分词器概念介绍: Analyzer类(分词器)就是把一段文本中的词按某些规则取出,提供和以后查询时使用的工具类,注意在创建索引时会用到分词器,在使用字符串搜索时也会用到分词器,这两个地方要使用同一个分词器,否则可能会搜索不出结果 分词器工作流程: 1, 切分关键词 2, 去除停用词 3, 对于英文单词,把所有字母转为小写(搜索时不区分大小写) 停用词: 有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响,例如英文的“a.an.the.of”,或中文的“的.了.着.是”,以及各种…
IndexSearcher indexSearcher = new IndexSearcher(LuceneUtils.getDirectory()); // 指定所用的索引库这句会引发线程安全问题,在全剧终 IndexSearcher只能有一个对象才可以,所以在ArticleDocumentUtils中保存一个 并且引用它.indexSearcher为了提高效率,也是在内存中有缓存的所以需要commit才能放入索引文件数据库中 数据库优化 每次添加数据在索引文件夹下有很多小文件,为了合并小文件…
搭建环境 搭建Lucene的开发环境只需要加入Lucene的Jar包,要加入的jar包至少要有: lucene-core-3.0.1.jar(核心包) contrib\analyzers\common\lucene-analyzers-3.0.1.jar(分词器) contrib\highlighter\lucene-highlighter-3.0.1.jar(高亮) contrib\memory\lucene-memory-3.0.1.jar(高亮) Article.java package…
一.系统设计 搜索引擎项目代码主要分为三个部分,第一部分是构建索引,全文检索:第二部分是输入问题,对问题进行分词.提取关键词.关键词扩展:第三部分是将搜索结果输出到GUI图形用户界面. 二.搜索引擎 搜索引擎的工作流程可以简化归结为以下四个步骤: (1)网上抓取网页 (2)建立索引数据库 (3)在索引数据库中搜索 (4)对搜索结果进行处理和排序   三.全文检索 1.什么是全文检索? 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法. 2.全文检索流程 全文检索大体分两个过程,索引创…
http://stackoverflow.com/questions/6210348/too-many-open-files-error-on-lucene   baidu zone - 为什么Lucene程序会报IOException:“Too many open files(打开了太多的文件)”?     今天使用lucene的IndexSearcher报这种异常,文件句柄数超多,超过了设置的65535个       问题解决后发现是IndexSearcher.close()并没有真正的关闭…
1. 下载此源码包,位置是: www.manning.com/hatcher3,得到:lia2e.tar.gz,然后解压缩得到目录:lia2e,为了以后能辨识,我将此目录改名为:luceneinAction2Edition_Demo 2. 然后,使用eclipse,将此目录加入其中,成为一个项目: 3. 通过eclipse中的Window->Show View->Ant,然后就可以在eclipse界面右侧看到Ant视图,然后在其中点击右键,选择Add Buildfiles…,将上述lucene…