lucene学习-2 - 一个示例

接下来我会写一个lucene的实例。实际上在搜索引擎上随便搜索下都能找到这样的东西。不过还是写一下吧，这也是我学习的经历。

package com.zhyea.doggie;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.StringField;

import org.apache.lucene.document.TextField;

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.index.Term;

import org.apache.lucene.queryparser.classic.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TermQuery;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.util.Version;

public class LuceneTest {

    public static void main(String[] args) {

        // 要用来检索的样本文件存储路径

        String docPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\docs";

        // 索引文件存储路径

        String indexPath = "D:\\aqsiqDevelop\\workspace3\\doggie\\WebContent\\index";

        try {

            // 分析器，这里使用了标准分析器

            Analyzer analyzer = new StandardAnalyzer();

            // 准备好索引存储目录

            Directory dir = FSDirectory.open(new File(indexPath));

            // 创建IndexWriter（索引写入器）配置，

            // 在配置中指明创建IndexWriter使用的lucene的版本及使用的分析器

            IndexWriterConfig config = new IndexWriterConfig(Version.LATEST,

                    analyzer);

            // 创建IndexWriter（索引写入器），并指明索引存储路径和配置文件

            IndexWriter writer = new IndexWriter(dir, config);

            // 使用IndexWriter（索引写入器）创建索引，这里另外创建一个方法

            addDocuments(docPath, writer);

            /* -------------创建索引结束，以下是进行搜索------------ */

            // 创建索引读出器

            IndexReader reader = DirectoryReader.open(dir);

            // 创建搜索器

            IndexSearcher seacher = new IndexSearcher(reader);

            // 创建搜索对象

            Query query = new TermQuery(new Term("content", "杨过"));

            // 执行搜索，并返回结果

            TopDocs topDocs = seacher.search(query, 10000);

            // 展示搜索结果

            Document doc;

            for(ScoreDoc tmp : topDocs.scoreDocs){

                doc = reader.document(tmp.doc);

                System.out.println("书名：" + doc.get("name")

                                 + "---------------------"

                                 + "路径：" + doc.get("path"));

            }

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

    /**

     * 遍历样本文本所在的目录，进行分析。

     * 这里采用的样本文本是金庸的三部小说：神雕、射雕和笑傲江湖。

     * @param docPath

     *            样本文本存储路径

     * @param writer

     *            索引写入器

     * @throws IOException

     */

    private static void addDocuments(String docPath, IndexWriter writer)

            throws IOException {

        File dir = new File(docPath);

        for (File tmp : dir.listFiles()) {

            //创建Document对象，代表一个被索引的基本单元

            Document doc = new Document();

            String fileName = tmp.getName();

            String filePath = tmp.getCanonicalPath();

            String fileContent = readTxt(tmp);

            //创建Field，并加入Document

            doc.add(new StringField("name", fileName,   Field.Store.YES));

            doc.add(new StringField("path", filePath,   Field.Store.YES));

            doc.add(new TextField("content",fileContent,Field.Store.YES));

            //将Document从内存写入真实目录

            writer.addDocument(doc);

            //提交索引，将索引写入索引文件，这个别忘了

            writer.commit();

        }

    }

    /**

     * 换行标志符

     */

    static final String NEWLINE = System.getProperty("line.separator");

    /**

     * 读取txt文件

     *

     * @param file

     *            txt文件对象

     * @return

     * @throws IOException

     */

    private static String readTxt(File file) throws IOException {

        BufferedReader br = null;

        try {

            br = new BufferedReader(new FileReader(file));

            StringBuilder builder = new StringBuilder();

            String line;

            while (null != (line = br.readLine())) {

                builder.append(line).append(NEWLINE);

            }

            return builder.toString();

        } finally {

            if (null != br) br.close();

        }

    }

}

执行代码，发现没有任何输出。用luke进行查看索引目录，发现content对应的是乱码：

在读取txt文件时，需要调整编码格式，或者直接调整txt的编码格式与工作空间默认编码相同即可。

这里就不写出了。

调整乱码后，再次执行程序，发现还是不能检索出什么东西。再次查看索引目录：

所有的中文字符都被分开成为单独的Term。这次需要调整分析器，将分析器调整为CJKAnalyzer。这次能够检索出结果了：

实际上，影响查询结果的不只是分析器，还有这一句：

new TermQuery(new Term("content", "杨过"));

好了，这些可以留到以后再说。

all。

lucene学习-2 - 一个示例的更多相关文章

SQL 数据库学习 007 通过一个示例简单介绍什么是字段、属性、列、元组、记录、表、主键、外键（上）
SQL 数据库学习 007 通过一个示例简单介绍什么是字段.属性.列.元组.记录.表.主键.外键 (上) 我们来介绍一下:数据库是如何存储数据的. 数据库是如何存储数据的来看一个小例子 scott ...
lucene创建索引简单示例
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习总结之四：Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
6、GNU makefile工程管理学习的一个例子
在之前我们已经学习了一个文件的编译过程,但是做过项目的都知道,一个工程中的源文件不计其数,其按类型.功能.模块会分别放在若干个目录中,而这些文件如何编译就需要有一个编译规则,虽然现在很多大型的项目都是 ...
Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

随机推荐

java上传图片，把图片存到本地
思路:js通过FileReader获取图片的Base64,Java解码用IO存到本地. HTML 代码 <input type="file" ng-model="f ...
Dart基础学习03--方法的使用
1.本文主要讲一下Dart中的方法是怎么定义的,下面先看一个简单的例子: void printNumber(num number) { print('The number is $number.'); ...
关于redux应用
redux 有点类似flux.但是我觉得远比flux要复杂.因为他非常的绕.一般搭配使用是redux 和react-redux 使用. 主要的思路就是: 写action:动作类型写reducer:动 ...
python之设置小数保留位数
python之设置小数保留位数 test.py: a = [3,4,4,4,6,4] average1 = float(sum(a)/len(a)) average2 =round(average1, ...
SQL Server常用函数汇总
1.day(date) 用途:获取日期是所在月的几号参数:date是一个可以解析为 time.date.smalldatetime.datetime.datetime2 或 datetime ...
【转】va_list 详解
原文出自http://www.cppblog.com/xmoss/archive/2009/07/20/90680.html VA_LIST 是在C语言中解决变参问题的一组宏他有这么几个成员: 1) ...
第05章—Swagger2打造在线接口文档
spring boot 系列学习记录:http://www.cnblogs.com/jinxiaohang/p/8111057.html 码云源码地址:https://gitee.com/jinxia ...
c#与lua交互里，错误处理
如果是c#代码出错了 [MonoPInvokeCallbackAttribute(typeof(LuaCSFunction))] static int _g_get_down(RealStatePtr ...
C#中的另类语法
一..net中return的另类写法: 不知道是从3.5还是从4.0开始C#语法中的return有了新的写法示例如下: public string functionDemo() { str ...
element-UI中el-select下拉框可搜索时候，filter-method自定义搜索方法
使用element-UI框架的使用,我们经常使用el-select下拉框,很多时候还需要使用可搜索的下拉框,然后elementUI官网的实例中只是提了一下filter-method可以自定义搜索方法, ...

lucene学习-2 - 一个示例

lucene学习-2 - 一个示例的更多相关文章

随机推荐

热门专题