lucene 学习一

索引工具的三部分
　　1.索引部分
　　2.分词部分
　　3.搜索部分

查看索引的工具：luke java -jar fileName.jar

目标：为文件夹的所有的文档生成索引并搜索它

package com.lucene;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.index.CorruptIndexException;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.queryParser.ParseException;

import org.apache.lucene.queryParser.QueryParser;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.ScoreDoc;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.FSDirectory;

import org.apache.lucene.store.LockObtainFailedException;

import org.apache.lucene.util.Version;

// lucene 使用的版本为 3.5

public class HelloLucene {

    public static void main(String[] args) {

        HelloLucene hl = new HelloLucene();

        hl.index();

        hl.search();

    }

    /**

     * 建立文档索引

     */

    public void index() {

        IndexWriter writer = null;

        try {

            //1.创建Director(确定索引建立的位置)

//            Directory directory = new RAMDirectory(); //在内存中建立

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.通过 IndexWriter 写索引

            IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_35, new StandardAnalyzer(Version.LUCENE_35));

            writer = new IndexWriter(directory, iwc);

            //3.创建 Document 对象

            Document doc = null;

            File f = new File("G:/lucene/");

            for(File file : f.listFiles()){

                //4.为文档 添加Field （文档的每个属性比如名称可以称之为文档的一个Field）

                doc = new  Document();

                doc.add(new Field("content", new FileReader(file)));

                doc.add(new Field("filename", file.getName(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                doc.add(new Field("path", file.getAbsolutePath(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));

                //5.通过IndexWrite添加文档到索引中

                writer.addDocument(doc);

                // 在索引库没有建立并且没有索引文件的时候首先要commit一下让他建立一个 索引库的版本信息

                writer.commit();

            }

        } catch (CorruptIndexException e) {

            e.printStackTrace();

        } catch (LockObtainFailedException e) {

            e.printStackTrace();

        } catch (IOException e) {

                try {

                    if(writer != null) writer.close();

                } catch (CorruptIndexException e1) {

                    e1.printStackTrace();

                } catch (IOException e1) {

                    e1.printStackTrace();

                }

            e.printStackTrace();

        }

    }

    /**

     * 搜索

     */

    public void search(){

        try {

            //1.创建Directory

            Directory directory = FSDirectory.open(new File("d:/index_01"));

            //2.创建IndexReader

            IndexReader reader = IndexReader.open(directory);

            //3.根据IndexReader创建IndexSearcher

            IndexSearcher searcher = new IndexSearcher(reader);

            //4.创建搜索的的Query

            QueryParser parser = new QueryParser(Version.LUCENE_35, "content", new StandardAnalyzer(Version.LUCENE_35));

            //要搜索的内容

            Query query = parser.parse("document");

            //5.根据searcher搜索并返回TopDocs

            TopDocs tds = searcher.search(query, 100);

            //6.根据TopDocs获取scoreDocs对象

            ScoreDoc[] sds = tds.scoreDocs;

            for(ScoreDoc sd:sds)

            {

                //7.根据Search和ScoreDoc对象获取具体的Document对象

                Document  d = searcher.doc(sd.doc);

                //8.根据document对象获取需要的值

                System.out.println(d.get("filename")+"|"+d.get("path"));

            }

            System.out.println(sds.length);    

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (ParseException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

        //2.

    }

}

lucene 学习一的更多相关文章

Lucene学习笔记（更新）
1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Apache Lucene学习笔记
Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www ...
Lucene学习笔记
师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点. 一.什么是Lucene Lucene即全文检索.全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明 ...
Lucene学习笔记：四，Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

启动Tensorboard时发生错误：class BeholderHook(tf.estimator.SessionRunHook): AttributeError: module 'tensorflow.python.estimator.estimator_lib' has no attribute 'SessionRunHook'
报错:class BeholderHook(tf.estimator.SessionRunHook):AttributeError: module 'tensorflow.python.estimat ...
leetcode76. Minimum Window Substring
leetcode76. Minimum Window Substring 题意: 给定字符串S和字符串T,找到S中的最小窗口,其中将包含复杂度O(n)中T中的所有字符. 例如, S ="AD ...
阻止a标签跳转
一.在html中 1. <a href="javascript:;"></a> 2. <a href="###">&l ...
CMAKE MYSQL
http://www.blogjava.net/kelly859/archive/2012/09/04/387005.html
VS 2017 取消结构参考线的显示
Visual studio 中的结构参考线如下所示其可以通过如下方式取消:
【spring data jpa】jpa中criteria拼接in查询
示例代码: public static Specification<GoodsType> where(final GoodsType goodsType){ return new Spec ...
编写第一个Shell脚本
Linux中有好多中不同的shell,bash是linux默认的shell,免费且容易使用. su切换为root权限 1.创建shell脚本 touch hello.sh 2.编辑: vi hello ...
Thymeleaf th:action
th:attr 任何属性值 <form action="subscribe.html" th:attr="action=@{/subscribe}"> ...
Android系统广播机制存在漏洞，恶意软件可绕过安全机制跟踪用户
前言国外研究人员披露了Android漏洞(CVE-2018-9489)的信息.Android系统的内部广播机制会暴露敏感的用户和设备信息,手机上安装的应用可在用户不知情或未经许可的情况下访问获取这些 ...
SPSS19.0实战之多元线性回归
线性回归数据来自于国泰安数据服务中心的经济研究数据库.网址:http://www.gtarsc.com/p/sq/.数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国3 ...

lucene 学习一

lucene 学习一的更多相关文章

随机推荐

热门专题