接下来我会写一个lucene的实例。实际上在搜索引擎上随便搜索下都能找到这样的东西。不过还是写一下吧,这也是我学习的经历。

package com.zhyea.doggie;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException; import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version; public class LuceneTest { public static void main(String[] args) {
// 要用来检索的样本文件存储路径
String docPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\docs";
// 索引文件存储路径
String indexPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\index";
try {
// 分析器,这里使用了标准分析器
Analyzer analyzer = new StandardAnalyzer();
// 准备好索引存储目录
Directory dir = FSDirectory.open(new File(indexPath));
// 创建IndexWriter(索引写入器)配置,
// 在配置中指明创建IndexWriter使用的lucene的版本及使用的分析器
IndexWriterConfig config = new IndexWriterConfig(Version.LATEST,
analyzer);
// 创建IndexWriter(索引写入器),并指明索引存储路径和配置文件
IndexWriter writer = new IndexWriter(dir, config);
// 使用IndexWriter(索引写入器)创建索引,这里另外创建一个方法
addDocuments(docPath, writer); /* -------------创建索引结束,以下是进行搜索------------ */
// 创建索引读出器
IndexReader reader = DirectoryReader.open(dir);
// 创建搜索器
IndexSearcher seacher = new IndexSearcher(reader);
// 创建搜索对象
Query query = new TermQuery(new Term("content", "杨过"));
// 执行搜索,并返回结果
TopDocs topDocs = seacher.search(query, 10000);
// 展示搜索结果
Document doc;
for(ScoreDoc tmp : topDocs.scoreDocs){
doc = reader.document(tmp.doc);
System.out.println("书名:" + doc.get("name")
+ "---------------------"
+ "路径:" + doc.get("path"));
}
} catch (Exception e) {
e.printStackTrace();
}
} /**
* 遍历样本文本所在的目录,进行分析。
* 这里采用的样本文本是金庸的三部小说:神雕、射雕和笑傲江湖。
* @param docPath
* 样本文本存储路径
* @param writer
* 索引写入器
* @throws IOException
*/
private static void addDocuments(String docPath, IndexWriter writer)
throws IOException {
File dir = new File(docPath);
for (File tmp : dir.listFiles()) {
//创建Document对象,代表一个被索引的基本单元
Document doc = new Document();
String fileName = tmp.getName();
String filePath = tmp.getCanonicalPath();
String fileContent = readTxt(tmp);
//创建Field,并加入Document
doc.add(new StringField("name", fileName, Field.Store.YES));
doc.add(new StringField("path", filePath, Field.Store.YES));
doc.add(new TextField("content",fileContent,Field.Store.YES));
//将Document从内存写入真实目录
writer.addDocument(doc);
//提交索引,将索引写入索引文件,这个别忘了
writer.commit();
}
} /**
* 换行标志符
*/
static final String NEWLINE = System.getProperty("line.separator"); /**
* 读取txt文件
*
* @param file
* txt文件对象
* @return
* @throws IOException
*/
private static String readTxt(File file) throws IOException {
BufferedReader br = null;
try {
br = new BufferedReader(new FileReader(file));
StringBuilder builder = new StringBuilder();
String line;
while (null != (line = br.readLine())) {
builder.append(line).append(NEWLINE);
}
return builder.toString();
} finally {
if (null != br) br.close();
}
}
}

执行代码,发现没有任何输出。用luke进行查看索引目录,发现content对应的是乱码:

在读取txt文件时,需要调整编码格式,或者直接调整txt的编码格式与工作空间默认编码相同即可。

这里就不写出了。

调整乱码后,再次执行程序,发现还是不能检索出什么东西。再次查看索引目录:

所有的中文字符都被分开成为单独的Term。这次需要调整分析器,将分析器调整为CJKAnalyzer。这次能够检索出结果了:

实际上,影响查询结果的不只是分析器,还有这一句:

new TermQuery(new Term("content", "杨过"));

好了,这些可以留到以后再说。

all。

lucene学习-2 - 一个示例的更多相关文章

  1. SQL 数据库 学习 007 通过一个示例简单介绍什么是字段、属性、列、元组、记录、表、主键、外键 (上)

    SQL 数据库 学习 007 通过一个示例简单介绍什么是字段.属性.列.元组.记录.表.主键.外键 (上) 我们来介绍一下:数据库是如何存储数据的. 数据库是如何存储数据的 来看一个小例子 scott ...

  2. lucene创建索引简单示例

    利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...

  3. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  4. Lucene学习总结之六:Lucene打分公式的数学推导

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

  5. Lucene学习总结之四:Lucene索引过程分析

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

  6. Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息

    Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息 在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...

  7. 6、GNU makefile工程管理学习的一个例子

    在之前我们已经学习了一个文件的编译过程,但是做过项目的都知道,一个工程中的源文件不计其数,其按类型.功能.模块会分别放在若干个目录中,而这些文件如何编译就需要有一个编译规则,虽然现在很多大型的项目都是 ...

  8. Lucene学习入门——下载初识

    本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...

  9. Lucene学习总结之七:Lucene搜索过程解析 2014-06-25 14:23 863人阅读 评论(1) 收藏

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

随机推荐

  1. fineReport---sql

    一.开窗函数-逐层平均 在创建数据集时用sql的开窗排名函数[AVG(字段) over(PARTITION BY 分组字段 order by 逐层字段)]处理,然后进行直接调用. 详细说明 二.开窗函 ...

  2. 巨蟒python全栈开发-第24天 内置常用模块3

    一. 1.re模块基础知识 2.python模块&re正则模块 3.实战:re模块&python(链家&电影天堂&豆瓣) 复习:上节课重点(1)sys.path 模块的 ...

  3. 【Python算法】列表中的 append 比 insert 效率高的实质

    append 与 insert 对比: # append 操作 >>> count = 10**5 >>> nums = [] >>> for i ...

  4. mysql crete view

    CREATE VIEW user_algo_view ASselect `u`.`userId` AS `UserId`,`u`.`userCode` AS `UserCode`,group_conc ...

  5. pycharm调试

    pycharm调试 flask app调试: 1.打开edit configurations面板 run===>edit configurations(图一或图二处都可以) 2.配置项目信息 点 ...

  6. pytho创建二维码简单版

    pytho创建二维码简单版 import qrcode aa = qrcode.make("https://github.com/phygerr/") aa.save('C:\Us ...

  7. 简明python教程七----面向对象的编程(下)

    继承:类之间的类型和子类型关系 代码重用:SchoolMember类被称为 基本类或超类,而Teacher和Student类被称为导出类或者子类 #!/usr/bin/python #Filename ...

  8. network FAQ

    @1: 参考 ifconfig eth0之后IP总是自动清除,解决方法, 修改vim /etc/network/interfaces 然后执行sudo /etc/init.d/networking r ...

  9. Java NIO2 File API介绍

    Introduction to the Java NIO2 File API GitHub NIO2中的文件API是Java 7附带的Java平台的主要新功能之一,特别是新的文件系统API的一个子集以 ...

  10. Taking a screen shot of a window using Delphi code is rather easy.

    Taking a screen shot of a window using Delphi code is rather easy. A screen shot (screen capture) is ...