Apache Lucene 4.5 发布，Java 搜索引擎

Apache Lucene 4.5 发布了,该版本提供基于磁盘的文档值以及改进了过滤器的缓存.Lucene 4.5 的文档请看这里. Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎. Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎.…

Apache Lucene全局搜索引擎入门教程

Lucene简介 Lucent:Apache软件基金会Jakarta项目组的一个子项目,Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻.在Java开发环境里Lucene是一个成熟的免费开源工具.就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库. -- [ 百度百科 ] 数据库索引和Lucene检索对比比较项 Lucene检索数据库检索数据检索从Lucene的索引文件中检出由数据库索引检索记录索引结构 Document(文档) Re…

Apache Lucene

1.Lucene -全文搜索引擎 Apache Lucene 是一个基于Java的全文搜索引擎,利用它能够轻易的为Java软件添�全文搜索引擎的功能. Lucene最重要的工作是替文件的每个字索引,索引让搜索娥效率比传统的逐字搜索高出非常多. Lucene 提供一组解析.过滤.分析文件,已经编排和有用索引的API.它的强大之处除了高效和简单外,最重要的是使开发人员能够随时依据自己的须要自己定义其功能. 2.Lucene是所中搜索引擎框架的基础.下面是基于Lucene的,分别实现了不同功能的拓展…

Java 搜索引擎

1.Java 全文搜索引擎框架 Lucene 毫无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎.Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能.下面有几款搜索引擎框架也是基于Lucene实现的. 官方网站:http://lucene.apache.org/ 2.开源Java搜索引擎Nutch Nutch 是一个开源Java实现的搜索引擎.它提供了我们运行自己的搜索…

Apache Nutch v2.3 发布，Java实现的网络爬虫

http://www.oschina.net/news/59287/apache-nutch-2-3 Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本. 这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 & 2.4.0 Apache Cassandra 2.0.2 Apache HBase 0.94.14…

java.lang.NoClassDefFoundError: org/apache/lucene/analysis/synonym/SynonymFilter

2013-6-24 13:28:51 org.apache.solr.common.SolrException log 严重: java.lang.NoClassDefFoundError: org/apache/lucene/analysis/synonym/SynonymFilter at org.apache.solr.analysis.SynonymFilterFactory.init(SynonymFilterFactory.java:48) at org.apache.solr.sc…

MyEclipse配置tomcat报错 - java.lang.UnsupportedClassVersionError: org/apache/lucene/store/Directory : Unsupported major.minor version 51.0

1 开发Servlet程序时,MyEclipse配置好tomcat与JDK之后,启动时控制台报下列错误: 1 java.lang.UnsupportedClassVersionError: org/apache/lucene/store/Directory : Unsupported major.minor version 51.02 at java.lang.ClassLoader.defineClass1(Native Method)3 at java.lang.ClassLoader.de…

使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析

使用 Apache Lucene 和 Solr 4 实现下一代搜索和分析使用搜索引擎计数构建快速.高效和可扩展的数据驱动应用程序 Apache Lucene™ 和 Solr™ 是强大的开源搜索技术,使组织能够轻松地显著增强数据访问.借助 4.x 版的 Lucene 和 Solr,向数据驱动应用程序中添加可扩展的搜索功能变得比以往更加轻松.Lucene 和 Solr 提交者 Grant Ingersoll 介绍了与相关性.分布式搜索和分面 (facet) 相关的最新 Lucene 和 Solr…

apache lucene solr 官网历史版本下载地址

官网上一般只提供最新版本的下载,下面两个链接为所有历史版本的下载地址: lucene地址:archive.apache.org/dist/lucene/java/ solr地址:archive.apache.org/dist/lucene/solr/ 在Solr1.4.x的时候,Solr和Lucene是独立发布的,Solr一般会在Lucene发布新版本后跟进发布一个新的版本. 到了3.1的时候,两者代码做了合并,版本号统一了,并同时发布.…

Lucene 02 - Lucene的入门程序(Java API的简单使用)

目录 1 准备环境 2 准备数据 3 创建工程 3.1 创建Maven Project(打包方式选jar即可) 3.2 配置pom.xml, 导入依赖 4 编写基础代码 4.1 编写图书POJO 4.2 编写图书DAO接口 4.3 实现图书DAO接口 5 索引流程的实现 5.1 示例代码 5.2 测试结果 6 使用Luke工具查看索引 6.1 使用说明 6.2 运行界面一 6.3 运行界面二 6.4 运行界面三 7 检索流程的实现 7.1 使用Luke工具搜索 7.2 示例代码 7.3 测试结果…

Java搜索引擎选择： Elasticsearch与Solr（转）

Elasticsearch简介 Elasticsearch是一个实时的分布式搜索和分析引擎.它可以帮助你用前所未有的速度去处理大规模数据. 它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合. Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架. 但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene.需要很多的学习了解,才能…

Apache Lucene学习笔记

Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www.cnblogs.com/xing901022/p/3933675.htm 首先呢,学习任何一门新的亦或是旧的开源技术,百度其中一二是最简单的办法,先了解其中的大概,思想等等.这里就贡献一个讲解很到位的ppt.已经被我转成了PDF,便于搜藏. 其次,关于第一次编程初探,建议还是查看官方资…

Apache Lucene(全文检索引擎)—分词器

目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://github.com/kencery/Lucene_Compass(项目内部有很详细的注释) 1.分词器的作用 a. 在创建索引的时候需要用到分词器,在使用字符串搜索的时候也会用到分词器,并且这两个地方要使用同一个分词器,否则可能会搜索不出来结果. b. 分词器(Analyzer)的作用是把一段文本中的词按…

Apache Lucene(全文检索引擎)—创建索引

目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://github.com/kencery/Lucene_Compass(项目内部有很详细的注释) 1. 发生在我们身边的搜索? a. 当我们去淘宝或者京东买东西的时候经常会用到搜索功能,而他们海量的数据都是存储在数据库的,那么程序猿在实现这个搜索功能的时候,是如何实现的呢?使用数据库的like这时候就变得捉襟见…

at org.apache.jsp.index_jsp._jspInit(index_jsp.java:22) 报空指针

原来发布到weblogic 的项目,想改动发布到tomcat上.启动发布一切都正常.出入项目请求路径却包错: java.lang.NullPointerException at org.apache.jsp.index_jsp._jspInit(index_jsp.java:22) 查询资料,原因是项目jar包和tomcat的jar包冲突了.不兼容. 删除工程里的jsp-api.jar和servlet-api.jar两个jar包,这种解决方案是对的,但是删除完这两个jar,可能还是有问题,此时需…

solrj:org.apache.solr.common.util.NamedList.java

package org.apache.solr.common.util; import java.io.Serializable; import java.util.ArrayList; import java.util.Arrays; import java.util.Collection; import java.util.Iterator; import java.util.List; import java.util.Map; import org.apache.solr.common.…

org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, column 0.

如果出现了下列错误,那是因为用错了函数.把queryParser.Query改称queryParser.parse就通过了 org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, column 0. Was expecting one of: <NOT> ... "+" ... "-" ... …

A SPI class of type org.apache.lucene.codecs.PostingsFormat with name 'Lucene40' does not exist.

简单的建立索引和查询索引并不难,关键在于他的二次开发,让他适合你自己的需求既然要二次开发就必须查看源码首先看看索引过程中的核心类吧: IndexWriter 这个是核心组件, 建立和打开索引,以及向文档中添加.删除或更新被索引文档的信息. Directory 描述了Lucene索引的存放位置,他是一个抽象类,一般都用FSDirectory.open(), Analyzer IndexWriter 必须指定一个分词器(分析器), Document 代表了一些域的集合,他表示了每个所要保存的单个…

jenkins自动发布java代码

注:本文来源于<KaliArch> jenkins笔记一.相关概念 1.1 Jenkins概念: Jenkins是一个功能强大的应用程序,允许持续集成和持续交付项目,无论用的是什么平台.这是一个免费的源代码,可以处理任何类型的构建或持续集成.集成Jenkins可以用于一些测试和部署技术.Jenkins是一种软件允许持续集成. 1.2 Jenkins目的: 1.持续.自动地构建/测试软件项目.2.监控软件开放流程,快速问题定位及处理,提示开放效率. 1.3 特性: 开源的java语言开发持续集…

An SPI class of type org.apache.lucene.codecs.PostingsFormat with name 'Lucene50' does not exist. You need to add the corresponding JAR file supporting this SPI to your classpath. The current classp

背景介绍: 当ES中guava库与hive等组件的库冲突时,对Elasticsearch库进行shade,relocate解决库冲突问题. 当使用"org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"对资源进行重定向后,仍旧报错,报错信息: An SPI class of type org.apache.lucene.codecs.PostingsFormat with name 'Lucene50'…

解决org.apache.lucene.store.AlreadyClosedException: this Directory is closed

在Lucene中,关闭一个IndexWriter时抛出AlreadyClosedException异常: org.apache.lucene.store.AlreadyClosedException: this Directory is closed at org.apache.lucene.store.BaseDirectory.ensureOpen(BaseDirectory.java:66) ~[lucene-core-4.8.1.jar:4.8.1 1594670 – rmuir – 2…

【手把手教你全文检索】Apache Lucene初探 (zhuan)

http://www.cnblogs.com/xing901022/p/3933675.html ********************************************************* PS: 苦学一周全文检索,由原来的搜索小白,到初次涉猎,感觉每门技术都博大精深,其中精髓亦是不可一日而语.那小博猪就简单介绍一下这一周的学习历程,仅供各位程序猿们参考,这其中不涉及任何私密话题,因此也不用打马赛克了,都是网络分享的开源资料,当然也不涉及任何利益关系. 如若转载,还请注明…

【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示4

前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示. 1. 中文分词使用中文分词的话,首先到添加中文分词的jar包.  <dependency> <groupId>org.apache.lucene</groupId> <…

【Lucene】Apache Lucene全文检索引擎架构之构建索引2

上一篇博文中已经对全文检索有了一定的了解,这篇文章主要来总结一下全文检索的第一步:构建索引.其实上一篇博文中的示例程序已经对构建索引写了一段程序了,而且那个程序还是挺完善的.不过从知识点的完整性来考虑,我想从Lucene的添加文档.删除文档.修改文档以及文档域加权四个部分来展开对构建索引的总结,也便于我后期的查看.会重点分析一下删除文档(因为有两中方式)和文档域加权这(实际中会用到比较多)两个部分. 1. 准备阶段新建一个maven工程,pom.xml如下: <project xmlns=&quo…

【Lucene】Apache Lucene全文检索引擎架构之入门实战1

Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供.Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻.在Java开发环境里Lucene是一个成熟的免费开源工具.就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库.——<百度百科> 这篇博文主要从两个方面出发,首先介绍一下Lucene中的全文搜索原理,其次通过程序示例来展现如何使用Lucene.关于全文搜索原理部分我上网搜索了一下,也看了好几篇文章,最后在写这篇文…

关于org.apache.lucene.queryParser.ParseException: Encountered "" 解决方法

现象: org.apache.lucene.queryParser.ParseException: Encountered "<EOF>" at line 1, column 0. Was expecting one of: <NOT> ... "+" ... "-" ... "(" ... <QUOTED> ... <TERM> ... <PREFIXTERM> .…

Lucene 4.6.1 java.lang.IllegalStateException: TokenStream contract violation

这是旧代码在新版本Lucene中出现的异常,异常如下: Exception in thread "main" java.lang.IllegalStateException: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of …

项目案例之Pipeline流水线发布JAVA项目（三）

项目案例之Pipeline流水线发布JAVA项目(三) 链接:https://pan.baidu.com/s/1NZZbocZuNwtQS0eGkkglXQ 提取码:z7gj 复制这段内容后打开百度网盘手机App,操作更方便哦 6. 项目案例二:流水线自动化发布JAVA项目主机名 IP地址备注 Git 192.168.200.61 Git服务器 Jenkins 192.168.200.62 Jenkins服务器 Web01 192.168.200.65 Tomcat服务器 #所有服务器进行如…

Apache Lucene(全文检索引擎)—搜索

目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://github.com/kencery/Lucene_Compass(项目内部有很详细的注释) 1. 搜索思路 a. 当用户在搜索的时候,先在词汇表中查找,得到符合条件的文档编号列表,再根据文档编号去索引库中得到数据(Document). b. Lucene实现搜索的思路 b.1 首先把需要查询的字符串转换为…

org.apache.solr.common.util.ContentStream.java及其实现类

org.apache.solr.common.util.ContentStream.java 主要是获取文件,URL,字节数组,字符串等的数据流.主要方法又InputStream getStream()和 Reader getReader(). 其实现类:org.apache.solr.common.util.ContentStreamBase.java为抽象类.以下有URLStream.java,FileStream.java,StringStream.java,ByteArrayStream…

【Apache Lucene 4.5 发布，Java 搜索引擎】的更多相关文章