Lucene创建索引流程

1.创建索引流程

原始文档：互联网上的网页（爬虫或蜘蛛）、数据库中的数据、磁盘上的文件
创建文档对象（非结构化数据）
文档对象中的属性不叫属性现在成为域。

每个 Document 可以有多个 Field ，不同的 Document 可以有不同的 Field，同一个 Document 可以有相同的 Field（域名和域值都相同）。
每个文档都有一个唯一的编号，就是文档id
分析文档
将原始内容包含域的文档，需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的词汇单元，可以将词汇单元理解为一个个单词。
原文档内容：
Luncene is a Java full-text search engine.
分析后得到的语汇单元：
lucene、java、full、search、engine…
每个单词叫做一个 Term，不同的域中拆分出来相同的单词是不同的 Term。Term中包含两部分一部分是文档的域名，另一部分是单词的内容。 Term K 域（文件名称） V spring Term K 域（文件内容） V spring 刚才两个Tream不是一个
创建索引
对所有文档分析得出的语汇单元进行创建索引，创建索引的目地是为了搜索，最终要实现只搜索被搜索的语汇单元从而找到 Document（文档）

注意：创建索引是对语汇索引，通过词语找文档，这种索引的结构叫倒排索引结构。包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

传统方式是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描法，数据量大、搜索慢

// 创建索引

    @Test

    public void testIndex() throws Exception {

        // 第一步创建一个indexwriter对象

        Directory directory = FSDirectory.open(new File("D:\\temp\\index"));

        // Directory directory2 = new RAMDirectory();//保存索引到内存中（内存索引库）

        //Analyzer analyzer = new StandardAnalyzer();// 官方推荐

         Analyzer analyzer = new IKAnalyzer();

        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);

        IndexWriter indexWriter = new IndexWriter(directory, config);

        // 第三步创建Filed域,将field添加到document对象中

        File f = new File("D:\\Lucent&solr\\searchsoure");

        File[] listFiles = f.listFiles();

        for (File file : listFiles) {

            // 第二步创建Document对象

            Document document = new Document();

            // 文件名称

            String file_name = file.getName();

            Field fileNameField = new TextField("fileName", file_name, Store.YES);

            // 文件大小

            long file_size = FileUtils.sizeOf(file);

            Field fileSizeField = new LongField("fileSize", file_size, Store.YES);

            // 文件路径

            String file_path = file.getPath();

            Field filePathField = new StoredField("filePath", file_path);

            // 文件内容

            String file_content = FileUtils.readFileToString(file);

            Field fileContentField = new TextField("fileContent", file_content, Store.NO);

            document.add(fileNameField);

            document.add(fileSizeField);

            document.add(filePathField);

            document.add(fileContentField);

            // 第四步：使用indexwriter对象将document对象写入索引库，此过程进行索引创建。并将索引和document对象写入索引库

            indexWriter.addDocument(document);

        }

        // 第五步：关闭IndexWriter对象

        indexWriter.close();

    }

    // 查询索引

    @Test

    public void testSearch() throws Exception {

        // 第一步：创建一个Directory对象，也就是索引库存放的位置。

        Directory directory = FSDirectory.open(new File("D:\\temp\\index"));// 磁盘硬盘库

        // 第二步：创建一个indexReader对象，需要指定Directory对象。

        IndexReader indexReader = DirectoryReader.open(directory);// 流

        // 第三步：创建一个indexsearcher对象，需要指定IndexReader对象

        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        // 第四步：创建一个TermQuery对象，指定查询的域和查询的关键词。

        Query query = new TermQuery(new Term("fileName", "java"));

        // 第五步：执行查询。

        TopDocs topDocs = indexSearcher.search(query, 2);

        // 第六步：返回查询结果。遍历查询结果并输出。

        ScoreDoc[] scoreDocs = topDocs.scoreDocs;// 文档id

        for (ScoreDoc scoreDoc : scoreDocs) {

            int doc = scoreDoc.doc;

            Document document = indexSearcher.doc(doc);

            // 文件名称

            String fileName = document.get("fileName");

            System.out.println(fileName);

            // 文件内容

            String fileContent = document.get("fileContent");

            System.out.println(fileContent);

            // 文件大小

            String fileSize = document.get("fileSize");

            System.out.println(fileSize);

            // 文件路径

            String filePath = document.get("filePath");

            System.out.println(filePath);

            System.out.println("-----------------");

        }

        // 第七步：关闭IndexReader对象

        indexReader.close();

    }

Lucene创建索引流程的更多相关文章

lucene创建索引简单示例
利用空闲时间写了一个使用lucene创建索引简单示例, 1.使用maven创建的项目 2.需要用到的jar如下: 废话不多说,直接贴代码如下: 1.创建索引的类(HelloLucene): packa ...
Lucene创建索引和索引的基本检索(Lucene 之 Hello World)
Author: 百知教育 gaozhy 注:演示代码所使用jar包版本为 lucene-xxx-5.2.0.jar 一.lucene索引操作 1.创建索引代码 try { // 1. 指定索引文件存 ...
lucene创建索引
创建索引. 1.lucene下载. 下载地址:http://archive.apache.org/dist/lucene/java/. lucene不同版本之间有不小的差别,这里下载的是lucene ...
lucene创建索引的几种方式(一)
什么是索引: 根据你输入的值去找,这个值就是索引第一种创建索引的方式: 根据文件来生成索引,如后缀为.txt等的文件步骤: 第一步:FSDirectory.open(Paths.get(url)) ...
搜索引擎学习（二）Lucene创建索引
PS:需要用到的jar包: 代码实现 1.工程结构 2.设置工程依赖的jar包 3.代码实现 /** * Lucene入门 * 创建索引 */ public class CreateIndex { / ...
第五步：Lucene创建索引
package cn.lucene; import java.io.IOException; import java.nio.file.Paths; import java.util.Date; im ...
Apache Lucene(全文检索引擎)—创建索引
目录返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...
Lucene 4.7 --创建索引
Lucene的最新版本和以前的语法或者类名,类规定都相差甚远 0.准备工作: 1). Lucene官方API http://lucene.apache.org/core/4_7_0/index.htm ...
Lucene.net 从创建索引到搜索的代码范例
关于Lucene.Net的介绍网上已经很多了在这里就不多介绍Lucene.Net主要分为建立索引,维护索引和搜索索引Field.Store的作用是通过全文检查就能返回对应的内容,而不必再通过id去DB ...

随机推荐

学习react
推荐资源: 一位react的最初构建者写的学习react的建议,这是翻译过的http://www.360doc.com/content/16/0129/07/13518188_531384175.sh ...
Xamarin.Android 调用手机拍照功能
最近开发Android遇到了调用本地拍照功能,于是在网上搜了一些方法,加上自己理解的注释,在这儿记录下来省的下次用时候找不到,同事也给正在寻找调用本地拍照功能的小伙伴一些帮助~ 实现思路:首先加载-- ...
hashmap可以用null为键值
import java.util.HashMap; import java.util.Map; import java.util.TreeMap; public class TestMain { ...
OpenStack 单元测试
OpenStack 单元测试 OpenStack开发——单元测试本文将介绍OpenStack单元测试的部分.本文将重点讲述Python和OpenStack中的单元测试的生态环境. openstack ...
java ee期末项目相关
1.项目简介本项目是对纸杯生产进行管理的的一个系统,从前端接收到订单,然后根据订单内容进行纸杯的生产.如下为该系统的总流程图: 1.项目系统架构图 3.系统用例图 4.ER图主要的代码和相关文件见 ...
（转）深度学习目标检测指标mAP
深度学习目标检测指标mAP https://github.com/rafaelpadilla/Object-Detection-Metrics 参考上面github链接中的readme,有详细描述
php防止刷流量攻击
<?php //查询禁止IP $ip =$_SERVER['REMOTE_ADDR']; $fileht=".htaccess2"; if(!file_exists($fil ...
PM2来部署nodejs服务器永久开启
pm2 日常使用 1. pm2 是什么? 日常开发中需要启动一个node项目,需要用npm run …,,如果终端被关掉,程序也就自动停止,有时候几个项目一起跑起来,好几个终端开着,个人不太喜欢, ...
Vue2.5开发去哪儿网App 详情页面开发
一,banner 图的设计 1. 新建detail的路由 import Detail from '@/pages/detail/Detail' ...... { path: '/detail', na ...
数据库MongoDB
一.MongoDB简介 MongoDB是由c++语言编写的,是一个基于分布式文件存储的开源数据库系统,在高负载的情况下,添加更多的节点,可以保证服务器性能.MongoDB旨在为web应用提供扩展的高性 ...

Lucene创建索引流程

1.创建索引流程

Lucene创建索引流程的更多相关文章

随机推荐

热门专题