Luence

是Apache软件基金会的一个项目，是一个开发源码的全文检索引擎工具包，是一个全文检索引擎的一个架构。提供了完成的查询引擎和检索引擎，部分文本分析引擎。

全文检索程序库，虽然与搜索引擎相关，但是不能混淆。

官方网址：https://lucene.apache.org/

帮助文档：https://lucene.apache.org/core/4_9_1/index.html

官方解释：

Lucene is a Java full-text search engine. Lucene is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications.

倒排索引

了解Luence要知道倒排索引；

通俗解释，我们通常都是通过查找文件位置及文件名，再查找文件的内容。倒排索引可以理解为通过文件内容来查找文件位置及文件名的。

倒排索引是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。

倒排索引也是lucence的索引核心。

文件内容可以表示一个field，文件名称可以表示一个field，将整个field进行分词，然后根据分词创建索引，建立一个个term；

如：文件的内容作为一个field，命名为"contents"，将文件内容进行分词，假设文件内容为"A B"，分词结果为"A","B"，这样term的信息就为两条，field的内容为"contents"，term对应的文本内容分别为"A"和"B"。

当查找指定分词的时候就可以获取这个分词所在的doc，并获取doc相关的信息。

demo编程

例子参考官方demo; package位置：org.apache.lucene.demo

自己写了一个demo

依赖的jar包：

commons-io-2.4.jar
lucene-analyzers-common-4.9.1.jar
lucene-core-4.9.1.jar
lucene-queries-4.9.1.jar
lucene-queryparser-4.9.1.jar

MyIndexFiles.java

 import org.apache.commons.io.FileUtils;

 import org.apache.lucene.analysis.Analyzer;

 import org.apache.lucene.analysis.standard.StandardAnalyzer;

 import org.apache.lucene.document.*;

 import org.apache.lucene.index.*;

 import org.apache.lucene.queryparser.classic.ParseException;

 import org.apache.lucene.queryparser.classic.QueryParser;

 import org.apache.lucene.search.IndexSearcher;

 import org.apache.lucene.search.Query;

 import org.apache.lucene.search.ScoreDoc;

 import org.apache.lucene.search.TopDocs;

 import org.apache.lucene.store.Directory;

 import org.apache.lucene.store.FSDirectory;

 import org.apache.lucene.util.Version;

 import org.junit.Test;

 import java.io.File;

 import java.io.IOException;

 /**

  * Created by Edward on 2016/7/25.

  */

 public class MyIndexFiles {

     public static void main(String[] args) throws IOException {

         //文件方式存储索引文件

         FSDirectory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));

         //文本解析器，分词器

         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);

         //索引写配置，要指定解析器及版本信息

         IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_4_9, analyzer);

         //创建写索引

         IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig );

         //路径

         File path = new File("D:\\documents\\Lucene\\MyDemo\\docs");

         //文件列表

         File[] listFile = path.listFiles();

         for(File file: listFile){

             //创建doc

             Document doc = new Document();

             //获取文件属性信息

             String filename = file.getName();

             long lastModified = file.lastModified();

             //通过commons-io-2.4.jar包中的FileUtils方法，读文件内容转化为String

             String readFile2Sting = FileUtils.readFileToString(file);

             //将field添加到doc

             //StringField不进行分词，当做一个分词

             //Field的有索引和存储属性，

                  //Field.Store.NO代表数据不进行存储，仅能索引到，多用来处理文本内容，可获取文件名然后通过文件位置打开文件获取内容

                  //Field.Store.YES代表存储数据，通常用来直接获取文件路径

             doc.add(new StringField("filename", filename, Field.Store.YES));

             doc.add(new LongField("modify", lastModified, Field.Store.YES));

             doc.add(new TextField("contents",readFile2Sting, Field.Store.NO));

             //新增的方式

             //indexWriter.addDocument(doc);

             //更新的方式， 更新与term匹配的docs

             indexWriter.updateDocument(new Term("filename", file.getName()), doc);

         }

         indexWriter.close();

     }

     @Test

     public void serach() throws IOException, ParseException {

         //本地索引文件

         Directory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));

         //读索引目录

         IndexReader indexReader = DirectoryReader.open(directory);

         //创建索引搜索对象

         IndexSearcher indexSearcher = new IndexSearcher(indexReader);

         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);

         //查询解析  指定查询的item,解析器,版本

         QueryParser queryParse = new QueryParser(Version.LUCENE_4_9, "contents", analyzer);

         //查询内容

         Query query = queryParse.parse("111");

         //查询指定条数

         int num = 6;

         TopDocs topDocs= indexSearcher.search(query, num);

         //采集数

         ScoreDoc[] docs = topDocs.scoreDocs;

         for(ScoreDoc doc:docs){

             //获取doc编号

             int i = doc.doc;

             //通过文档编号获取文档信息

             Document d = indexSearcher.doc(i);

             //打印文档信息

             System.out.println(d.get("filename"));

             System.out.println(d.get("modify"));

             System.out.println(d.get("contents"));

         }

         indexReader.close();

     }

 }

Luence的更多相关文章

Luence学习笔记
1.Luence的核心索引类 IndexWriter:建立索引的核心组件 Directory:代表一个lucene索引项的位置,是一个抽象类其子类有FSDirectory和RAMDirectory F ...
Luence简单实现1
初步认识Luence,简单按照官方文档做了个例子,大牛绕开,仅供小白路过参考.如有错误,欢迎指正批评. 建一个简单工程,并且加入这几个小奶瓶,如下图: 注:版本不同,可能对jdk的需求是不同的,这个需 ...
Luence简单实现2
上一篇是基于内存存储的,这次的例子是基于本地存储索引库. 上一次的代码稍微修改,代码如下: //创建词法分析器 Analyzer analyzer = new StandardAnalyzer(); ...
luence全文检索（数据库检索）
注解:从数据库中查询所有数据然后放入luence中,然后在luence来检索 package com.zhu.demo; import java.io.IOException; import java ...
luence全文检索（简介）
刚开始做全文检索也是找了很多资料但是网上的都不是很齐全luence是个很不多的工具 Lucene4.0的官网文档:http://lucene.apache.org/core/4_0_0/core/ov ...
（二）Luence——代码实现索引及搜索
完成需求:使用Lucene完成对数据库中图书信息的索引和搜索功能. 1. 环境准备及工程搭建 1.1 环境准备 mysql5.5+java8+lucene4.10.3(目前最新7.0.1,这里够用就好 ...
luence优化速度
一. .索引优化背景很多网站都有自己的搜索引擎,比如百度,搜狗等等,而他们每天添加的索引量可想而知多么庞大,所以为了能提升用户的搜索响应速度,好的优化方案必不可少:当然对于一些网站的站内搜索也很有必 ...
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
logstash日志分析的配置和使用
logstash是一个数据分析软件,主要目的是分析log日志.整一套软件可以当作一个MVC模型,logstash是controller层,Elasticsearch是一个model层,kibana是v ...

随机推荐

javascript返回上一页的三种写法
window.history.go(-1); //返回上一页 window.history.back(); //返回上一页不会造成死循环 //如果要强行刷新的话就是:window.history.ba ...
3D-爱心
520把爱心送给她用自己独有的方式表白,也是爱的一种体现! 所以呢,我就利用自己现有的知识,做了一个3D爱心! 今天是5月21日,博主在这里希望所有看到这个博客的朋友们能够拥有自己美好的爱情! 同时 ...
华为5G折叠屏幕适配
华为5G折叠屏幕的发布,迎来新的一个设备——移动端的折叠设备华为Max;华为Max设备分辨率有以下几种 8.0,6.8,6.38,这三种场景下页面展示都是不一样的表现,需要我们在开发中注意监听屏幕变化 ...
绑定Oracle Database 到 ActiveReport
ActiveReport 可以和多种数据源交互,包括OLEDB, SQL, XML和集合对象. 在本文中我们将阐述如何绑定Oracle 数据库到 ActiveReport . 这是一件很轻松的事情.下 ...
绝对良心提供百度网盘的jdk1.8源码下载包含sun包的
但是openjdk网站有提供的: http://hg.openjdk.java.net/jdk8u/jdk8u/jdk/file/6bfaecb8ff77/src/share/classes/ 或者直 ...
Fiddler抓包使用教程-扫盲篇
转载请标明出处:http://blog.csdn.net/zhaoyanjun6/article/details/72823370 本文出自[赵彦军的博客] 1.什么是抓包? 不同主机之间的数据通信都 ...
网站软件FTP下载
网站软件FTP下载统一管理站 http://www.mmnt.net/ db2 http://www.mmnt.net/db/0/0/public.dhe.ibm.com/software/hk/ ...
c#中Indexof()和Split()的用法
C#中IndexOf的使用 indexOf() 查找字串中指定字符或字串首次出现的位置,返首索引值,如: str1.IndexOf("字"): //查找“字”在str1中的索引值( ...
The attribute required is undefined for the annotation type XmlElementRef
异常描述: 几天没用的项目导进Eclipse中发现有异常 public class BooleanFeatureType extends FeatureBaseType{ @XmlElementRef ...
Linux parted命令详解
parted常见命令参数 Usage: parted [OPTION]... [DEVICE [COMMAND [PARAMETERS]...]...] Apply COMMANDs with PAR ...

Luence

Luence

倒排索引

demo编程

Luence的更多相关文章

随机推荐

热门专题