3、使用Lucene实现千度搜索】的更多相关文章

1.新建Web项目 新建一个Web项目,我命名为SearchEngine,然后导入Java包: 除了上篇博客中的Jar包外,我还引入了 IKAnalyzer2012_FF.jar 包和struts2的相关包: IKAnalyzer:是用来进行中文分词的一个jar包,他会把中文分词一个个合理的词来进行检索: Struts2:一会儿搜索结果,使用Struts2展示到浏览器中: 2.准备数据源 我使用linux 命令 wget 爬了一个网站内的一部分html网页,同样将它放在一个纯英文的目录: 3.创…
前言 一直以来个人博客的搜索功能很蹩脚,只是自己简单用数据库的like %keyword%来实现的,所以导致经常搜不到想要找的内容,而且高亮显示.摘要截取等也不好实现,所以决定采用Lucene改写博客的搜索功能.先来看一下最终效果: 本文demo地址:https://github.com/liuxianan/lucene-demo (包括本文需要用到的jar包可以从这里面下载) 效果演示地址:http://blog.liuxianan.com/search?kw=%E7%AB%AF%E5%8F%…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 第二版功能需求 自动完成 热门词汇(SEO) 显示分词.执行耗时 分页 页面美化 我们先假设用一张表来存储用户所有的关键字搜索和次…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 站内搜索模块:生产者.消费者,多线程.复习多线程,用多线程做一个winform的生产者.消费者的例子,有任务的时候(点按钮给整数)…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 我们先来看下百度搜索…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 代码 先看代码,后面再一一讲解 引入命名空间: using Lucene.Net.Store; using System.IO;…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 Lucene.Net简介 Lucene.Net是由Java版本的Lucene(卢思银)移植过来的,所有的类.方法都几乎和Lucen…
目录 Lucene.net站内搜索—1.SEO优化 Lucene.net站内搜索—2.Lucene.Net简介和分词Lucene.net站内搜索—3.最简单搜索引擎代码Lucene.net站内搜索—4.搜索引擎第一版技术储备(简单介绍Log4Net.生产者消费者模式)Lucene.net站内搜索—5.搜索引擎第一版实现Lucene.net站内搜索—6.站内搜索第二版 声明:在这里,所谈的一切关于SEO的技术主要针对于我们开发人员. SEO (搜索引擎优化) SEO(搜索引擎优化)的目的(很多人都…
Lucene.Net 站内搜索 一  全文检索: like查询是全表扫描(为性能杀手)Lucene.Net搜索引擎,开源,而sql搜索引擎是收费的Lucene.Net只是一个全文检索开发包(只是帮我们存数据取数据,并没有界面,可以看作一个数据库,只能对文本信息进行检索)Lucene.Net原理:把文本切词保存,然后根据词汇表的页来找到文章 二  分词算法: //一元分词算法(引用Lucene.Net.dll)  一元分词算法 //二元分词算法(CJK:China Japan Korean 需要再…
package com.jadyer.lucene; import java.io.File; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Date; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.…
实现效果: 上一篇文章有附全文搜索结果的设计图,下面截一张开发完成上线后的实图: 基本风格是模仿的百度搜索结果,绿色的分页略显小清新. 目前已采集并创建索引的文章约3W多篇,索引文件不算太大,查询速度非常棒. 刀不磨要生锈,人不学要落后.每天都要学一些新东西. 基本技术介绍: 还记得上一次做全文搜索是在2013年,主要核心设计与代码均是当时的架构师写的,自己只能算是全程参与. 当时使用的是经典搭配:盘古分词+Lucene.net. 前几篇文章有说到,盘古分词已经很多年不更新了,我在Support…
实现效果: 上一篇文章有附全文搜索结果的设计图,下面截一张开发完成上线后的实图: 基本风格是模仿的百度搜索结果,绿色的分页略显小清新. 目前已采集并创建索引的文章约3W多篇,索引文件不算太大,查询速度非常棒. 刀不磨要生锈,人不学要落后.每天都要学一些新东西. 基本技术介绍: 还记得上一次做全文搜索是在2013年,主要核心设计与代码均是当时的架构师写的,自己只能算是全程参与. 当时使用的是经典搭配:盘古分词+Lucene.net. 前几篇文章有说到,盘古分词已经很多年不更新了,我在Support…
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大.更新较频繁的情况下使用.本文主要来介绍下如何使用,其原理还没弄透,改天再续.本文代码基于lucene 4.10 IndexReader的重建 想要看到新的结果就需要重新打开一个IndexReader,DirectoryReader提供了DirectoryReader openIfChanged(DirectoryReader oldReade…
一.分词器 lucene针对不同的语言和虚伪提供了许多分词器,我们可以针对应用的不同的需求使用不同的分词器进行分词.我们需要注意的是在创建索引时使用的分词器与搜索时使用的分词器要保持一致.否则搜索的结果就不是我们期望的结果.lucene提供的常规分词器如下: •StandardAnalyzer 标准分词器 •IKAnalyzer 基于Lucene的第三方中文分词技术 •WhitespaceAnalyzer 空格分词器 •SimpleAnalyzer 简单分词器 •CJKAnalyzer 二分法分…
1.lucene 词频 转载:http://mxdxm.iteye.com/blog/989031 lucene in action作为action系列,确实坚持了其实用性的特色.全书花了很大的篇幅来讲解查询的解析,结果的优化和lucene应用上.很适合要做全文检索的人学习使用.但是lucen的功能决不仅仅在做搜索引擎上.如果不是最近看到一篇介绍用lucene作词频,文档统计的文章的话,我可能到现在还在为寻找一种用于专业研究的工具而苦恼.其实lucene可以很轻松地实现信息检索课中提到的要求,例…
1.随着网站数据量达到500万条的时候,发现SQL数据库如果使用LIKE语句来查询,总是占用CPU很忙,不管怎么优化,速度还是上不来; 2.经过网上收集资料,HUBBLE.net目前虽然做得不错,但需要配置内存给他,由于服务器4G内存,而且运行了好几个网站,所以考虑采用Lucene.net来做为搜索引擎; 3.虽然本地测试没有问题,但是部署到64位的服务器上还是经过了好几天的折腾,在此都记录一下. 在此记录搜片神器的整个开发过程中遇到的问题和相关的解决方案,希望大家一起交流. Lucene软件下…
搜索引擎中往往有一个可选的搜索词的列表,当搜索结果太少时,可以帮助用户扩展搜索内容,或者搜索结果太多的时候可以帮助用户深入定向搜索.一种方法是从搜索日志中挖掘字面相似的词作为相关搜索词列表.另一种方法是把用户共同查询的词作为相关搜索词,需要有搜索日志才能实现.[摘自<Lucene In Action>] 下面使用的是第一种方法: package com.tan.code; //省略引入 public class RelateWords { private static final String…
近实时搜索:可以使用一个打开的IndexWriter快速搜索索引的变更内容,而不必首先关闭writer,或者向该writer提交:这是2.9版本之后推出的新功能. 代码示例(本例参考<Lucene In Action>): package com.tan.code; import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.luce…
package jdbc; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.SQLException; import java.util.UUID; public class ConnectionUtil { private static String driver="com.mysql.cj.jdbc.Driver"…
最近我们搜易站内搜索系统的一个客户需要一个无限级分类和分类统计功能,要实现的效果如下: 但由于搜易站内搜索系统是基于Lucene.net 2.0开发的,并没有内置的分类统计搜索功能,于是乎只能自己实现了,考虑到客户的总数据量和搜索量不是特别大,于是用了简单有效的方式来实现: 因为涉及到分类的操作,但是每个站点的分类体系还是有些不一样的,本文主要提供思路和部分演示代码,给有需要的童鞋参考: 思路: 首先想到Lucene搜索出来的结果是一个Hits对象,Hits其实就是一个搜索结果文档的集合对象,那…
1. 搜索 排序:lucene 提供了Sort类对结果进行排序 提供了Filter类对查询条件进行限制 你或许会不自觉地拿它跟SQL语句进行比较:“lucene能执行and.or.order by.where.like ‘%xx%’操作吗?”回答是:“当然没问题!” 7.1 各种各样的Query 下面我们看看lucene到底允许我们进行哪些查询操作: 7.1.1 TermQuery 首先介绍最基本的查询,如果你想执行一个这样的查询: “在content域中包含‘lucene’的document.…
Lucene.Net核心类简介 先运行写好的索引的代码,再向下讲解各个类的作用,不用背代码. (*)Directory表示索引文件(Lucene.net用来保存用户扔过来的数据的地方)保存的地方,是抽象类,两个子类FSDirectory(文件中).RAMDirectory (内存中).使用的时候别和IO里的Directory弄混了. 创建FSDirectory的方法,FSDirectory directory =FSDirectory.Open(new DirectoryInfo(indexPa…
需求:模糊搜索. 前提:  本例中使用lucene 5.3.0 package com.shyroke.lucene; import java.io.File; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.nio.file.Paths; import org.apache.lucene.analysis.Analyzer; impo…
前提:在使用lucene进行搜索的时候,必须先生成索引文件,即必须先进行上一章节的案例,生成索引文件如下: 该索引文件为"segments"开头,如果没有该文件则说明没有索引文件则报错:org.apache.lucene.index.IndexNotFoundException: no segments* file found in SimpleFSDirectory@E:\lucene\index lockFactory=org.apache.lucene.store.NativeF…
先看一段代码 IndexSearcher searcher = new IndexSearcher(DirectoryReader.open(FSDirectory.open(new File("F:\\indexDir")))); QueryParser parser = new QueryParser(Version.LUCENE_47, "", analyzer); String queryStr = getQueryStr(paramVO); query =…
此文主要通过百度搜索功能,进行 Selenium2 的实战实例讲解,文中所附源代码于 2015-01-16 02:01 亲测通过,敬请亲们阅览.希望能对初学 Selenium2 UI 自动化测试编程的亲们有所帮助.若有不足之处,敬请大神指正,不胜感激! 脚本实现功能步骤如下所示: 启动 Chrome 浏览器 打开百度网址:www.baidu.com 输入搜索项:范丰平 博客园 获取搜索结果的第一项,并打开 关闭 Chrome 浏览器(为显示打开效果,已将此项注释) 夜已深了,鬼话少述,直接上源代…
http://akululu.iteye.com/blog/314130 多索引目录就是要在多个索引目录的中进行比较搜索,类似概念在SQL中就是select * from TableA union select * from TableB. IndexSearcher[] searchers = new IndexSearcher[2]; searchers[0] = new IndexSearcher(IndexPath0); searchers[1] = new IndexSearcher(…
/** * “多条件查询”搜索—BooleanQuery * BooleanQuery也是实际开发过程中经常使用的一种Query. * 它其实是一个组合的Query,在使用时可以把各种Query对象添加进去并标明它们之间的逻辑关系. * 在本节中所讨论的所有查询类型都可以使用BooleanQuery综合起来. * BooleanQuery本身来讲是一个布尔子句的容器,它提供了专门的API方法往其中添加子句, * 并标明它们之间的关系,以下代码为BooleanQuery提供的用于添加子句的API接…
1.输入关键字后,显示联想下拉框,鼠标右键对应的联想字段,点击检查,就可在F12模式下元素查看器中定位到,之后使用Xpath定位.…
在了解了Lucene以后,我打算亲手来做一个Lucene的小例子,这个例子只是Lucene最简单的应用:使用Lucene实现标准的英文搜索: 1.下载Lucene 下载Lucene,到Lucene的官方下载http://lucene.apache.org/: 2.新建项目 新建一个Java Project 然后引入Lucene的jar 包: 因为要实现的功能非常简单,所以Jar包只引入了一部分,当然Lucene的jar包远远不止这些: core包:Lucene的核心包 analyzers包:主要…