lucene in action

【lucene in action】的更多相关文章

《Lucene in Action 第二版》第4章节学习总结 -- Lucene中的分析

通过第四章的学习,可以了解lucene的分析过程是怎样的,并且可以学会如何使用lucene内置分析器,以及自定义分析器.下面是具体总结 1. 分析(Analysis)是什么? 在lucene中,分析就是指:将域(Field)文本转换成最基本的索引表示单元---项(Term)的过程.而项(Term)又是由语汇单元(Token)以及它所属的域名组合而成的. 在索引过程中存在分析(IndexWriter的初始化中需要放入一个Analyzer的实例:并且如果要使Analyzer生效,则需要使用Index…

《Lucene in Action第二版》学习总结---如何在Windows下编译luceneinAction2Edition源码包

1. 下载此源码包,位置是: www.manning.com/hatcher3,得到:lia2e.tar.gz,然后解压缩得到目录:lia2e,为了以后能辨识,我将此目录改名为:luceneinAction2Edition_Demo 2. 然后,使用eclipse,将此目录加入其中,成为一个项目: 3. 通过eclipse中的Window->Show View->Ant,然后就可以在eclipse界面右侧看到Ant视图,然后在其中点击右键,选择Add Buildfiles…,将上述lucene…

《Lucene in Action》（第二版）第二章节的学习总结 ---- IndexWriter+Document+Field

这一章节的学习,主要是学会如何创建索引,使用索引一.创建索引 1.从原始文件中提取内容.这里的文件,可以是文本文件,也可以是二进制文件.文本文件(txt),lucene可以直接处理:而二进制文件(word,pdf等),则可以使用Tika框架(Tika是啥,我自己还没学到,先不细说了).提取的内容,必须的转换成lucene能识别的格式并存储.这里的格式,就是Field以及由多个Field组成的Document.存储在Directory对象中. 2.光转换成Document还不能用,lucene还…

《Lucene in Action》（第二版）第一章节的学习总结 ---- 用最少的代码创建索引和搜索

第一章节是介绍性质,但是通过这一章节的学习,我理解到如下概念: 1.Lucene由两部分组成:索引和搜索.索引是通过对原始数据的解析,形成索引的过程:而搜索则是针对用户输入的查找要求,从索引中找到匹配的内容,并表示出来. 2.索引组件的工作顺序是:原始内容--->获取内容(比如利用网络爬虫,这时取得的还是原始内容,只不过是自己想要的原始内容)--->建立文档(这里就是lucene的索引组件真正开始工作的地方了,解析内容变成lucene自己的document)--->文档分析(利用luce…

Lucene in action 笔记 term vector——针对特定field建立的词频向量空间，不存！不会！影响搜索，其作用是告诉我们搜索结果是“如何”匹配的，用以提供高亮、计算相似度，在VSM模型中评分计算

摘自:http://makble.com/what-is-term-vector-in-lucene given a document, find all its terms and the positions information of these terms. Index tell us which document matched , term vector tells us how and where its matched. A classic example is search r…

1. 索引——好比字典的索引一样,进行查询时使用 2. Field.Index.NO 则没有索引,则不能被搜索 3. 第三章 PhraseQuery 短语查询按照顺序添加term PharseQuery 短语查询的评分: public class App { public static void main( String[] args ) throws IOException, ParseException { Directory dir = new RAMDirectory(); Inde…

《Lucene in Action 第二版》第三章节的学习总结----IndexSearcher以及Term和QueryParser

本章节告诉我们怎么用搜索.通过这章节的学习,虽然搜索的内部原理不清楚,但是至少应该学会简单的编写搜索程序了本章节,需要掌握如下几个主要API1.IndexSearcher类:搜索索引的门户,发起者. 初始化:IndexSearcher is = new IndexSearcher(dir) --- 不产生近实时搜索的效果或者 IndexREeader reader = IndexReader.open(dir);Index…

Lucene的分析资料【转】

Lucene 源码剖析 1 目录 2 Lucene是什么 2.1.1 强大特性 2.1.2 API组成- 2.1.3 Hello World! 2.1.4 Lucene roadmap 3 索引文件结构 3.1 索引数据术语和约定 - 3.1.1 术语定义 3.1.2 倒排索引(inverted indexing) 3.1.3 Fields的种类 3.1.4 片断(segments) 3.1.5 文档编号(document numbers) 3.1.6 索引结构概述 3.1.7 索引文件中定义的…

【手把手教你全文检索】Apache Lucene初探

PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程,仅供各位程序猿们参考,这其中不涉及任何私密话题,因此也不用打马赛克了,都是网络分享的开源资料,当然也不涉及任何利益关系. 如若转载,还请注明出处--xingoo 讲解之前,先来分享一些资料首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏…

Apache Lucene学习笔记

Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www.cnblogs.com/xing901022/p/3933675.htm 首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏. 其次,关于第一次编程初探,建议还是查看官方资…

Lucene的分析过程

转自:http://www.open-open.com/lib/view/open1348033848724.html Lucene的分析过程回顾倒排索引的构建收集待建索引的原文档(Document) 将原文档传给词条化工具(Tokenizer)进行文本词条化将第二步得到的词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term) 将得到的词项(Term)传给索引组件(Indexer),建立倒排索引注:详细文档->倒排索引的理论过程见…

ElasticSearch 2 (10) - 在ElasticSearch之下（深入理解Shard和Lucene Index）

摘要从底层介绍ElasticSearch Shard的内部原理,以及回答为什么使用ElasticSearch有必要了解Lucene的内部工作方式? 了解ElasticSearch API的代价构建快速的搜索应用不要任何时候都commit 何时使用Stored Fields和Document Values Lucene可能不是一个合适的工具了解索引的存储方式 term vector是索引大小的1/2 我移除了20%的文件,但是索引占用空间并未发生任何变化版本 elasticsearch版…

Lucene总体架构

Lucene总的来说是:• 一个高效的,可扩展的,全文检索库.• 全部用Java实现,无须配置.• 仅支持纯文本文件的索引(Indexing)和搜索(Search).• 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程.在Lucene in action中,Lucene 的构架和过程如下图说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点.让我们更细一些看Lucene的各组件 • 被索引的文档用Document对象表示.• IndexWriter通过函数a…

Lucene学习总结：全文检索的基本原理

一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…

lucene 建立索引的不同方式

1.创建一个简单的索引: package lia.meetlucene; import java.io.File; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.index.IndexWriter; import org.apache.lucene.store.Directory; import org.apache.luc…

Lucene实战(第2版)》

<Lucene实战(第2版)>基于Apache的Lucene 3.0,从Lucene核心.Lucene应用.案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene.建立索引.为应用程序添加搜索功能.高级搜索技术.扩展搜索.使用Tika提取文本.Lucene的高级扩展.使用其他编程语言访问Lucene.Lucene管理和性能调优等内容,最后还提供了三大经典成功案例,为读者展示了一个奇妙的搜索世界. 首先你先确定Lucene的版本,然后查一下对应官方的api文档,看看你用的那个方法是实…

lucene 3.0.2 搜索

1.lucene 词频转载:http://mxdxm.iteye.com/blog/989031 lucene in action作为action系列,确实坚持了其实用性的特色.全书花了很大的篇幅来讲解查询的解析,结果的优化和lucene应用上.很适合要做全文检索的人学习使用.但是lucen的功能决不仅仅在做搜索引擎上.如果不是最近看到一篇介绍用lucene作词频,文档统计的文章的话,我可能到现在还在为寻找一种用于专业研究的工具而苦恼.其实lucene可以很轻松地实现信息检索课中提到的要求,例…

lucene学习笔记：二，Lucene的框架

Lucene总的来说是: 一个高效的,可扩展的,全文检索库. 全部用Java实现,无须配置. 仅支持纯文本文件的索引(Indexing)和搜索(Search). 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程. 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点. 让我们更细一些看Lucene的各组件: 被索引的文档用Document对象表示. IndexWriter通过函数addD…

Lucene学习笔记：一，全文检索的基本原理

一.总论根据http://lucene.apache.org/java/docs/index.html定义: Lucene是一个高效的,基于Java的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据. 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会提到第三种,半…

Lucene为不同字段指定不同分词器(转)

在lucene使用过程中,如果要对同一IndexWriter中不同 Document,不同Field中使用不同的analyzer,我们该如何实现呢? 通过对<lucene in action>的阅读,发现是可以解决这一问题的.lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器. Java代码复制代码 Analyzer analyzer = new StandardAnalyzer(); IndexWri…

Lucene 4.x实践1

在Lucene 3.x时代,<Lucene In Action>是一本相当不错的参考书,书中详细介绍了Lucene各种高级使用技术,对于开发者来说非常实用.但是近期Lucene升级到了4.x版本,在性能等各方面有了很大的提高,值得在新项目中使用.然而Lucene 4.x中的API相比3.x来说有了很大的改变,<Lucene In Action>中的很多内容都已经过时了,并且由于4.x推出的时间不长,还没有比较好的文档来对用法进行说明,这个系列文章就是想记录下自己使用Lucene 4…

Lucene学习总结之三：Lucene的索引文件格式(1)

Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程. Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程. 本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.or…

Lucene学习总结之二：Lucene的总体架构

Lucene总的来说是: 一个高效的,可扩展的,全文检索库. 全部用Java实现,无须配置. 仅支持纯文本文件的索引(Indexing)和搜索(Search). 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程. 在Lucene in action中,Lucene 的构架和过程如下图, 说明Lucene 是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点. 让我们更细一些看Lucene的各组件: 被索引的文档用Document对象表示. IndexWriter 通过函数a…

Lucene学习总结之一：全文检索的基本原理

一.总论根据http://lucene.apache.org/java/docs/index.html 定义: Lucene 是一个高效的,基于Java 的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 那么什么叫做全文检索呢?这要从我们生活中的数据说起. 我们生活中的数据总体分为两种:结构化数据和非结构化数据 . 结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等. 当然有的地方还会…

【Lucene】挖掘相关搜索词

搜索引擎中往往有一个可选的搜索词的列表,当搜索结果太少时,可以帮助用户扩展搜索内容,或者搜索结果太多的时候可以帮助用户深入定向搜索.一种方法是从搜索日志中挖掘字面相似的词作为相关搜索词列表.另一种方法是把用户共同查询的词作为相关搜索词,需要有搜索日志才能实现.[摘自<Lucene In Action>] 下面使用的是第一种方法: package com.tan.code; //省略引入 public class RelateWords { private static final String…

【Lucene】近实时搜索

近实时搜索:可以使用一个打开的IndexWriter快速搜索索引的变更内容,而不必首先关闭writer,或者向该writer提交:这是2.9版本之后推出的新功能. 代码示例(本例参考<Lucene In Action>): package com.tan.code; import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.luce…

免费的Lucene 原理与代码分析完整版下载

Lucene是一个基于Java的高效的全文检索库.那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据.很容易理解,结构化数据是有固定格式和结构的或者有限长度的数据,比如数据库,元数据等.非结构化数据则是不定长或者没有固定格式的数据,如图片,邮件,文档等.还有一种较少的分类为半结构化数据,如XML,HTML等,在一定程度上我们可以将其按照结构化数据来处理,也可以抽取纯文本按照非结构化数据来处理.非结构化数据又称为全文数据.,对其搜索主要有两种…

[转载] Apache Lucene初探

转载自http://www.cnblogs.com/xing901022/p/3933675.html 讲解之前,先来分享一些资料首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏. 其次,关于第一次编程初探,建议还是查看官方资料.百度到的资料,目前Lucene已经更新到4.9版本,这个版本需要1.7以上的JDK,所以如果还用1.6甚至是1.5的小盆友,请参考低版本,由于我用的1.…

Lucene入门-安装和运行Demo程序

Lucene版本:7.1 一.下载安装包 https://lucene.apache.org/core/downloads.html 二.安装把4个必备jar包和路径添加到CLASSPATH \lucene-7.1.0\core\lucene-core-7.1.0.jar \lucene-7.1.0\queryparser\lucene-queryparser-7.1.0.jar \lucene-7.1.0\analysis\common\lucene-analyzers-common-7.1…

1. 初识 Lucene

在学习Lucene之前呢,我们当然首先要了解下什么是Lucene. 0x01 什么是Lucene ? Lucene是一套用于全文检索和搜索的开放源代码程序库,由Apache软件基金会支持和提供. Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索,在Java开发环境里Lucene是一个成熟的免费开放源代码工具: 就其本身而论,Lucene是现在并且是这几年,最受欢迎的免费Java信息检索程序库. Lucene最初是由Doug Cutting所撰写的,他贡献出Lucene的目标是…