Luence

是Apache软件基金会的一个项目,是一个开发源码的全文检索引擎工具包,是一个全文检索引擎的一个架构。提供了完成的查询引擎和检索引擎,部分文本分析引擎。

全文检索程序库,虽然与搜索引擎相关,但是不能混淆。

官方网址:https://lucene.apache.org/

帮助文档:https://lucene.apache.org/core/4_9_1/index.html

官方解释:

Lucene is a Java full-text search engine. Lucene is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications.

倒排索引

了解Luence要知道倒排索引;

通俗解释,我们通常都是通过查找文件位置及文件名,再查找文件的内容。倒排索引可以理解为通过文件内容来查找文件位置及文件名的。

倒排索引是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。

倒排索引也是lucence的索引核心。

文件内容可以表示一个field,文件名称可以表示一个field,将整个field进行分词,然后根据分词创建索引,建立一个个term;

如:文件的内容作为一个field,命名为"contents",将文件内容进行分词,假设文件内容为"A B",分词结果为"A","B",这样term的信息就为两条,field的内容为"contents",term对应的文本内容分别为"A"和"B"。

当查找指定分词的时候就可以获取这个分词所在的doc,并获取doc相关的信息。

demo编程

例子参考官方demo; package位置:org.apache.lucene.demo

自己写了一个demo

依赖的jar包:

commons-io-2.4.jar
lucene-analyzers-common-4.9.1.jar
lucene-core-4.9.1.jar
lucene-queries-4.9.1.jar
lucene-queryparser-4.9.1.jar

MyIndexFiles.java

 import org.apache.commons.io.FileUtils;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test; import java.io.File;
import java.io.IOException; /**
* Created by Edward on 2016/7/25.
*/
public class MyIndexFiles { public static void main(String[] args) throws IOException { //文件方式存储索引文件
FSDirectory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index")); //文本解析器,分词器
Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9); //索引写配置,要指定解析器及版本信息
IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_4_9, analyzer); //创建写索引
IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig ); //路径
File path = new File("D:\\documents\\Lucene\\MyDemo\\docs");
//文件列表
File[] listFile = path.listFiles();
for(File file: listFile){
//创建doc
Document doc = new Document(); //获取文件属性信息
String filename = file.getName();
long lastModified = file.lastModified(); //通过commons-io-2.4.jar包中的FileUtils方法,读文件内容转化为String
String readFile2Sting = FileUtils.readFileToString(file); //将field添加到doc
//StringField不进行分词,当做一个分词
//Field的有索引和存储属性,
//Field.Store.NO代表数据不进行存储,仅能索引到,多用来处理文本内容,可获取文件名然后通过文件位置打开文件获取内容
//Field.Store.YES代表存储数据,通常用来直接获取文件路径
doc.add(new StringField("filename", filename, Field.Store.YES));
doc.add(new LongField("modify", lastModified, Field.Store.YES));
doc.add(new TextField("contents",readFile2Sting, Field.Store.NO)); //新增的方式
//indexWriter.addDocument(doc); //更新的方式, 更新与term匹配的docs
indexWriter.updateDocument(new Term("filename", file.getName()), doc);
}
indexWriter.close();
} @Test
public void serach() throws IOException, ParseException { //本地索引文件
Directory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index")); //读索引目录
IndexReader indexReader = DirectoryReader.open(directory); //创建索引搜索对象
IndexSearcher indexSearcher = new IndexSearcher(indexReader); Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9); //查询解析 指定查询的item,解析器,版本
QueryParser queryParse = new QueryParser(Version.LUCENE_4_9, "contents", analyzer); //查询内容
Query query = queryParse.parse("111"); //查询指定条数
int num = 6;
TopDocs topDocs= indexSearcher.search(query, num); //采集数
ScoreDoc[] docs = topDocs.scoreDocs; for(ScoreDoc doc:docs){ //获取doc编号
int i = doc.doc; //通过文档编号获取文档信息
Document d = indexSearcher.doc(i); //打印文档信息
System.out.println(d.get("filename"));
System.out.println(d.get("modify"));
System.out.println(d.get("contents"));
}
indexReader.close();
} }

Luence的更多相关文章

  1. Luence学习笔记

    1.Luence的核心索引类 IndexWriter:建立索引的核心组件 Directory:代表一个lucene索引项的位置,是一个抽象类其子类有FSDirectory和RAMDirectory F ...

  2. Luence简单实现1

    初步认识Luence,简单按照官方文档做了个例子,大牛绕开,仅供小白路过参考.如有错误,欢迎指正批评. 建一个简单工程,并且加入这几个小奶瓶,如下图: 注:版本不同,可能对jdk的需求是不同的,这个需 ...

  3. Luence简单实现2

    上一篇是基于内存存储的,这次的例子是基于本地存储索引库. 上一次的代码稍微修改,代码如下: //创建词法分析器 Analyzer analyzer = new StandardAnalyzer(); ...

  4. luence全文检索(数据库检索)

    注解:从数据库中查询所有数据然后放入luence中,然后在luence来检索 package com.zhu.demo; import java.io.IOException; import java ...

  5. luence全文检索(简介)

    刚开始做全文检索也是找了很多资料但是网上的都不是很齐全luence是个很不多的工具 Lucene4.0的官网文档:http://lucene.apache.org/core/4_0_0/core/ov ...

  6. (二)Luence——代码实现索引及搜索

    完成需求:使用Lucene完成对数据库中图书信息的索引和搜索功能. 1. 环境准备及工程搭建 1.1 环境准备 mysql5.5+java8+lucene4.10.3(目前最新7.0.1,这里够用就好 ...

  7. luence优化速度

    一. .索引优化背景 很多网站都有自己的搜索引擎,比如百度,搜狗等等,而他们每天添加的索引量可想而知多么庞大,所以为了能提升用户的搜索响应速度,好的优化方案必不可少:当然对于一些网站的站内搜索也很有必 ...

  8. 【NLP】十分钟快览自然语言处理学习总结

    十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...

  9. logstash日志分析的配置和使用

    logstash是一个数据分析软件,主要目的是分析log日志.整一套软件可以当作一个MVC模型,logstash是controller层,Elasticsearch是一个model层,kibana是v ...

随机推荐

  1. iTerm通过堡垒机自动登录服务器

    为了保障网络和数据安全,越来越多公司使用堡垒机.iTerm作为一个好用的终端利器,要实现自动通过堡垒机登录服务器的方式有多种.下面我就来介绍一种通过expect脚本的方式完成配置. 第一步,进入/us ...

  2. Vue.js $nextTick

    最近在学习vue.js.了解1.x的基础上再学习2.x的vue.两个版本的确是不会像angular这样1.x和2.x相差甚远.所以学习起来其实还是有很大的关联.但是,终归来说.两者还是有语法上的细微差 ...

  3. 活字格Web应用平台学习笔记 6 - 使用公式

    发现学起来其实也花不了多少时间.继续学习下一节课:使用公式. 这应该会是高级一点的操作了吧,前面的几节课真是好简单好简单,简单到怀疑这是不是个技术人员该干的活,简单到怀疑人生~~ 这节课的目标: 好吧 ...

  4. Loadrunner 脚本开发-利用web_custom_request函数进行接口测试

    脚本开发-利用web_custom_request函数进行接口测试 by:授客 QQ:1033553122 一.POST + JSON格式参数 例: web_custom_request(" ...

  5. JSTL核心标签库——重定向标签、URL处理标签、网页导入标签

    <c:redirect>重定向标签 相当于HttpServletResponse的sendRedirect()方法. <%@page contentType="text/h ...

  6. nodejs设置NODE_ENV环境变量(1)

    看下app.js文件中的一部分代码,如下: //开发环境错误处理 // will print stacktrace if (app.get('env') === 'development') { ap ...

  7. Python+Selenium笔记(十二):数据驱动测试

    (一)   前言 通过使用数据驱动测试,实现对输入值和预期结果的参数化.(例如:输入数据和预期结果可以直接读取Excel文档的数据) (二)   ddt 使用ddt执行数据驱动测试,ddt库可以将测试 ...

  8. Bootstrap源码分析系列之整体架构

    作为一名合格的前端工程师,你肯定听说过Bootstarp框架.确实可以说Bootstrap框架是最流行的前端框架之一.可是也有人说Bootstrap是给后端和前端小白用的,我认为只要学习它能给我们前端 ...

  9. 在Docker Swarm上部署Apache Storm:第2部分

    [编者按]本文来自 Baqend Tech Blog,描述了如何在 Docker Swarm,而不是在虚拟机上部署和调配Apache Storm集群.文章系国内 ITOM 管理平台 OneAPM 编译 ...

  10. Python环境下如何安装爬虫需求的一些库

    是在CMD环境下的: request库pip install request 回车 pandas库 同理,pip install pandas :这里需要声明下,这个是不一定成功的,刚入门稍微看了一点 ...