Lucene的初步了解和学习

Lucene的学习
一，什么是全文检索

1.数据的分类

　　1.结构化数据

　　　　格式固定，长度固定，数据类型固定。

　　　　例如：数据库中的数据；

　　2.非结构化数据

　　　　word文档，pdf文档，邮件，html，txt

　　　　格式不固定，长度不固定，数据类型也不固定

2.数据的查询

　　1，结构化数据的查询

　　　　Sql语句，查询结构化数据的方法。简单，速度快。

　　2.非结构化数据的查询

　　　　例如：从文本文件中找出包含spring的单词的文件

　　　　1.目测

　　　　2.使用程序代码来实现，把文件读取到内存中，匹配字符串，顺序扫描。

　　　　3.把结构化数据变成结构化数据

　　　　　　（先根据空格进行字符串拆分，得到一个单词列表，基于单词列表创建一个索引）　　

　　　　　　　索引：一个为了提高查询速度，创建某种数据结构的集合

　　　　　　　然后查询索引，根据单词和文档对应关系找到文档列表，这个过程就叫全文检索

3.全文检索

　　先创建索引，然后查询索引的过程，就叫做全文检索。（创建索引时间较长，但是一次创建可以多次使用，平均每次查询的速度就提高了速度）

二,全文搜索的应用场景

1，搜索引擎

　　　　百度，360搜索，谷歌，搜狗

2，站内搜索

　　　　论坛搜索，微博搜索，文章搜索

3，电商搜索

　　　　淘宝搜索，京东搜索

4，只要是有搜索的地方，就可以使用到全文检索技术

三，什么是Lucene

　　Lucene是一个基于java开发的全文检索工具包，java开发中Lucene首选。

四，Lucene实现全文检索的流程。

1，创建索引

　　　　1）获得文档

　　　　　　　　原始文档：要基于那些数据来进行搜索，那么这些数据就是原始文档

　　　　　　　　搜索引擎：使用爬虫获得原始文档

　　　　　　　　站内搜索：数据库中的数据。使用jdbc到数据库中取

　　　　　　　　案列：直接使用io流读取磁盘上的文件。

　　　　2）构建文档对象

　　　　　　　　对应每个原始文档，来创建Document对象。

　　　　　　　　每个Document对象中包含多个域（Field）

　　　　　　　　域中保持原始文档的数据。

　　　　　　　　　　　域的名称；域的值；

　　　　　　　　　　　每个文档都有一个文档的编号，就是文档id

　　　　3）分析文档

　　　　　　　　就是分词的过程

　　　　　　　　1.根据空格进行拆分，得到一个单词列表

　　　　　　　　2.把单词统一转化成大写或者小写

　　　　　　　　3.去掉标点符号

　　　　　　　　4.去掉停用词（停用词：无意义的词；如：and）

　　　　　　　　每个关键词都封装成一个Term对象中，Term中包含两部分内容：关键词包含的域；关键词本身；（不同的域中拆分出来的关键词是不同的Term）

　　　　4）创建索引

　　　　　　　　基于关键词列表来创建一个索引，保存到磁盘中，保存到索引库中。

　　　　　　　　索引库中包含：

　　　　　　　　　　　　　　索引

　　　　　　　　　　　　　　Document对象

　　　　　　　　　　　　　　关键词和文档的对应关系

　　　　　　　　通过词语找文档，这种索引的结构就叫倒排索引结构

2，查询索引　

　　　　1)用户查询接口

　　　　　　　　用户输入查询条件的地方

　　　　　　　　例如：百度的搜索框

　　　　2）把关键词封装成一个查询对象

　　　　　　　　要查询的域

　　　　　　　　要搜索的关键词

　　　　3）执行查询

　　　　　　　　根据要查询的关键词到对应的域中进行搜索

　　　　　　　　找到关键词，根据关键词来找到对应的文档

　　　　4）渲染结果

　　　　　　　　根据文档的id找到文档的对象

　　　　　　　　对关键词进行高亮显示

　　　　　　　　分页显示

　　　　　　　　最终展示出给用户展示
五，入门程序
　　1，创建索引
　　　　　　环境：
　　　　　　　　需要下载Lucene
　　　　　　　　http://lucene.apache.org/
　　　　　　　　目前的版本lucene-7.4.0
　　　　　　　　最低要求jdk1.8版本
　　　　工程搭建：
　　　　　　　　创建一个java工程
　　　　　　　　添加jar：
　　　　　　　　lucene-analyzers-common-7.4.0.jar
　　　　　　　　lucene-cone-7.4.0.jar
　　　　　　　　commons-io.jar
　　　　　　步骤：
　　　　　　　　1，创建一个Directory对象，指定索引保存的位置
　　　　　　　　2，基于一个IndexReader对象
　　　　　　　　3，读取磁盘上的文件，对应每个文件创建一个文档对象
　　　　　　　　4，向文档对象中添加域
　　　　　　　　5，把文档对象写入索引库
　　　　　　　　6，关闭indexWriter对象

public void createIndex() throws Exception {

　　　　//1、创建一个Director对象，指定索引库保存的位置。

　　　　//把索引库保存在内存中

　　　　//Directory directory = new RAMDirectory();

　　　　//把索引库保存在磁盘

　　Directory directory = FSDirectory.open(new File("C:\\temp\\index").toPath());

　　　　//2、基于Directory对象创建一个IndexWriter对象

　　IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());

　　IndexWriter indexWriter = new IndexWriter(directory, config);

　　　　//3、读取磁盘上的文件，对应每个文件创建一个文档对象。

　　File dir = new File("C:\\A0.lucene2018\\05.参考资料\\searchsource");

　　File[] files = dir.listFiles();

　　　　　　for (File f :files) {

　　　　//取文件名

　　String fileName = f.getName();

　　　　//文件的路径

　　String filePath = f.getPath();

　　　　//文件的内容

　　String fileContent = FileUtils.readFileToString(f, "utf-8");

　　　　//文件的大小

　　long fileSize = FileUtils.sizeOf(f);

　　　　//创建Field

　　　　//参数1：域的名称，参数2：域的内容，参数3：是否存储

　　Field fieldName = new TextField("name", fileName, Field.Store.YES);

　　　　//Field fieldPath = new TextField("path", filePath, Field.Store.YES);

　　Field fieldPath = new StoredField("path", filePath);

　　Field fieldContent = new TextField("content", fileContent, Field.Store.YES);

　　　　//Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);

　　Field fieldSizeValue = new LongPoint("size", fileSize);

　　Field fieldSizeStore = new StoredField("size", fileSize);

　　　　//创建文档对象

　　Document document = new Document();

　　　　//向文档对象中添加域

　　　  document.add(fieldName);

　　　  document.add(fieldPath);

　　　　document.add(fieldContent);

　　　　//document.add(fieldSize);

　　　　document.add(fieldSizeValue);

　　　　document.add(fieldSizeStore);

　　　　　　//5、把文档对象写入索引库

　　　　indexWriter.addDocument(document);

}

　　　　//6、关闭indexwriter对象

　　　　indexWriter.close();

}

2，使用luke查看索引库中的内容（luke的使用对jdk版本有要求）
　　　　　　　　版本：luke-7.4.0（要求版本在jdk1.9）
3，查询索引库
　　　　　　步骤：
　　　　　　　　1，创建一个Directory对象，指定索引库的位置
　　　　　　　　2，创建一个IndexReader
　　　　　　　　3，创建一个IndexSearcher对象，构造方法中的参数indexReader对象
　　　　　　　　4，一个Query对象，TremQuery对象
　　　　　　　　5，执行查询，得到一个TopDocs对象
　　　　　　　　6，取查询结果的总记录数
　　　　　　　　7，取文档列表
　　　　　　　　8，打印文档中的内容
　　　　　　　　9，关闭IndexReader对象

public void searchIndex() throws Exception {

　　　　　　//1、创建一个Director对象，指定索引库的位置

　　Directory directory = FSDirectory.open(new File("C:\\temp\\index").toPath());

　　　　　　//2、创建一个IndexReader对象

　　IndexReader indexReader = DirectoryReader.open(directory);

　　　　　　//3、创建一个IndexSearcher对象，构造方法中的参数indexReader对象。

　　IndexSearcher indexSearcher = new IndexSearcher(indexReader);

　　　　　　//4、创建一个Query对象，TermQuery

　　Query query = new TermQuery(new Term("name", "spring"));

　　　　　　//5、执行查询，得到一个TopDocs对象

　　　　　　//参数1：查询对象 参数2：查询结果返回的最大记录数

　　TopDocs topDocs = indexSearcher.search(query, 10);

　　　　　　//6、取查询结果的总记录数

　　System.out.println("查询总记录数：" + topDocs.totalHits);

　　　　　　//7、取文档列表

　　ScoreDoc[] scoreDocs = topDocs.scoreDocs;

　　　　　　//8、打印文档中的内容

　　for (ScoreDoc doc : scoreDocs) {

　　　　　　//取文档id

　　int docId = doc.doc;

　　　　　　//根据id取文档对象

　　Document document = indexSearcher.doc(docId);

　　System.out.println(document.get("name"));

　　System.out.println(document.get("path"));

　　System.out.println(document.get("size"));

　　　　//System.out.println(document.get("content"));

　　System.out.println("-----------------寂寞的分割线");

　　}

　　　　//9、关闭IndexReader对象

　　indexReader.close();

}

六，分析器
默认使用的是标准分析器StandardAnalyzer
　　　　1，查看分析器的分析效果
　　　　使用Analyzer对象的tokenS他ream方法返回一个TokenStream对象，词对象包含最终分词结果
　　　　　　实现步骤：
　　　　　　　　1）创建一个Analyzer对象，StandrdAnalyzer对象
　　　　　　　　2）使用分析器对象的tokenStream方法获取一个TokenStream对象
　　　　　　　　3）向TokenStream对象中设置一个引用，相当于设置一个指针
　　　　　　　　4）调用TokenStream对象中的rest方法，如果不调用抛异常
　　　　　　　　5）使用while循环遍历TokenStream对象
　　　　　　　　6）关闭TokenStream对象

public void testTokenStream() throws Exception {

　　　　//1）创建一个Analyzer对象，StandardAnalyzer对象

　　　　// Analyzer analyzer = new StandardAnalyzer();

　　Analyzer analyzer = new IKAnalyzer();

　　　　//2）使用分析器对象的tokenStream方法获得一个TokenStream对象

　　TokenStream tokenStream = analyzer.tokenStream("", "公安局Lucene是一款高性能的、可扩展的信息检索(IR)工具库。信息检索是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。");

　　　　//3）向TokenStream对象中设置一个引用，相当于数一个指针

　　CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);

　　　　//4）调用TokenStream对象的rest方法。如果不调用抛异常

　　tokenStream.reset();

　　　　//5）使用while循环遍历TokenStream对象

　　while(tokenStream.incrementToken()) {

　　System.out.println(charTermAttribute.toString());

　　}

　　　　//6）关闭TokenStream对象

　　tokenStream.close();

}

2，IKAnalyze的使用方法
　　　　1）把IKAnalyze的jar包添加到工程中去
　　　　2）把配置文件和扩展词典添加到工程的classpath下
　　　　注意：扩展词典严禁使用windows记事本编辑，必须扩展词典的编码格式是utf-8
　　　　扩展词典：添加一些新词
　　　　停用词词典：无意义的词或者敏感词汇

public void createIndex() throws Exception {

　　　　//1、创建一个Director对象，指定索引库保存的位置。

　　　　//把索引库保存在内存中

　　　　//Directory directory = new RAMDirectory();

　　　　//把索引库保存在磁盘

　　Directory directory = FSDirectory.open(new File("C:\\temp\\index").toPath());

　　　　//2、基于Directory对象创建一个IndexWriter对象

　　IndexWriterConfig config = new IndexWriterConfig(new IKAnalyzer());

　　IndexWriter indexWriter = new IndexWriter(directory, config);

　　　　//3、读取磁盘上的文件，对应每个文件创建一个文档对象。

　　File dir = new File("C:\\A0.lucene2018\\05.参考资料\\searchsource");

　　File[] files = dir.listFiles();

　　for (File f : files) {

　　//取文件名

　　String fileName = f.getName();

　　　　//文件的路径

　　String filePath = f.getPath();

　　　　//文件的内容

　　String fileContent = FileUtils.readFileToString(f, "utf-8");

　　　　//文件的大小

　　long fileSize = FileUtils.sizeOf(f);

　　　　//创建Field

　　　　//参数1：域的名称，参数2：域的内容，参数3：是否存储

　　Field fieldName = new TextField("name", fileName, Field.Store.YES);

　　　　//Field fieldPath = new TextField("path", filePath, Field.Store.YES);

　　Field fieldPath = new StoredField("path", filePath);

　　Field fieldContent = new TextField("content", fileContent, Field.Store.YES);

　　　　//Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);

　　　　Field fieldSizeValue = new LongPoint("size", fileSize);

　　Field fieldSizeStore = new StoredField("size", fileSize);

　　　　//创建文档对象

　　Document document = new Document();

　　　　//向文档对象中添加域

　　document.add(fieldName);

　　document.add(fieldPath);

　　document.add(fieldContent);

　　　　//document.add(fieldSize);

　　document.add(fieldSizeValue);

　　document.add(fieldSizeStore);

　　　　//5、把文档对象写入索引库

　　indexWriter.addDocument(document);

}

　　　　//6、关闭indexwriter对象

　　indexWriter.close();

}

七，索引库的维护
1，添加文档

private IndexWriter indexWriter;

　　@Before

public void init() throws Exception {

　　　　//创建一个IndexWriter对象，需要使用IKAnalyzer作为分析器

　　indexWriter =

　　　　new IndexWriter(FSDirectory.open(new File("C:\\temp\\index").toPath()),

　　　　new IndexWriterConfig(new IKAnalyzer()));

}

　　@Test

public void addDocument() throws Exception {

　　　　//创建一个IndexWriter对象，需要使用IKAnalyzer作为分析器

　　IndexWriter indexWriter =

　　new IndexWriter(FSDirectory.open(new File("C:\\temp\\index").toPath()),

　　new IndexWriterConfig(new IKAnalyzer()));

　　　　//创建一个Document对象

　　Document document = new Document();

　　　　//向document对象中添加域

　　document.add(new TextField("name", "新添加的文件", Field.Store.YES));

　　document.add(new TextField("content", "新添加的文件内容", Field.Store.NO));

　　document.add(new StoredField("path", "c:/temp/helo"));

　　　　// 把文档写入索引库

　　indexWriter.addDocument(document);

　　　　//关闭索引库

　　indexWriter.close();

}

　　@Test

public void deleteAllDocument() throws Exception {

　　　　//删除全部文档

　　indexWriter.deleteAll();

　　　　//关闭索引库

　　indexWriter.close();

}

　　@Test

public void deleteDocumentByQuery() throws Exception {

　　indexWriter.deleteDocuments(new Term("name", "apache"));

　　indexWriter.close();

}

2，删除文档
1）删除全部

　　@Test

public void deleteAllDocument() throws Exception {

　　　　//删除全部文档

　　indexWriter.deleteAll();

　　　　//关闭索引库

　　indexWriter.close();

}

2）根据查询，关键词删除文档

　　@Test

public void deleteDocumentByQuery() throws Exception {

　　　　indexWriter.deleteDocuments(new Term("name", "apache"));

　　indexWriter.close();

}

3，修改文档
　　修改的原理是先删除后添加

　　@Test

public void updateDocument() throws Exception {

　　　　//创建一个新的文档对象

Document document = new Document();

　　　　//向文档对象中添加域

　　document.add(new TextField("name", "更新之后的文档", Field.Store.YES));

　　document.add(new TextField("name1", "更新之后的文档2", Field.Store.YES));

　　document.add(new TextField("name2", "更新之后的文档3", Field.Store.YES));

　　　　//更新操作

　　indexWriter.updateDocument(new Term("name", "spring"), document);

　　　　//关闭索引库

　　indexWriter.close();

}

八，索引库查询
　　　　1，使用Query的子类
　　　　　　1）TermQuery
　　　　　　　　根据关键词进行查询
　　　　　　　　需要指定查询的域以及要查询的关键字

　　　　　　2）RangeQuery
范围查询

　　　　private IndexReader indexReader;

　　　　private IndexSearcher indexSearcher;

　　　　@Before

public void init() throws Exception {

　　　　indexReader = DirectoryReader.open(FSDirectory.open(new File("C:\\temp\\index").toPath()));

　　　　indexSearcher = new IndexSearcher(indexReader);

}

　　@Test

public void testRangeQuery() throws Exception {

　　　　　　//创建一个Query对象

　　　　Query query = LongPoint.newRangeQuery("size", 0l, 100l);

　　　　printResult(query);

}

　　　　private void printResult(Query query) throws Exception {

　　　　　　//执行查询

　　　　TopDocs topDocs = indexSearcher.search(query, 10);

　　　　System.out.println("总记录数：" + topDocs.totalHits);

　　　　ScoreDoc[] scoreDocs = topDocs.scoreDocs;

　　　　for (ScoreDoc doc:scoreDocs){

　　　　　　//取文档id

　　　　int docId = doc.doc;

　　　　　　//根据id取文档对象

　　　　Document document = indexSearcher.doc(docId);

　　　　System.out.println(document.get("name"));

　　　　System.out.println(document.get("path"));

　　　　System.out.println(document.get("size"));

　　　　　　//System.out.println(document.get("content"));

　　　　System.out.println("-----------------寂寞的分割线");

}

　　　　indexReader.close();

}

2，使用QueryPaser进行查询
　　　　　　可以要对查询的内容先分词，然后基于分词的结果进行扫描
　　　　　　添加一个jar包
　　　　　　luncene-queryparser-7.4.0.jar

　　　　@Test

public void testQueryParser() throws Exception {

　　　　//创建一个QueryPaser对象，两个参数

　　QueryParser queryParser = new QueryParser("name", new IKAnalyzer());

　　　　//参数1：默认搜索域，参数2：分析器对象

　　　　//使用QueryPaser对象创建一个Query对象

　　Query query = queryParser.parse("lucene是一个Java开发的全文检索工具包");

　　　　//执行查询

　　printResult(query);

}

Lucene的初步了解和学习的更多相关文章

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0) 学习问题记录六：Lucene 的索引系统和搜索过程分析
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Appium原理初步--Android自动化测试学习历程
章节:自动化基础篇——Appium原理初步(第七讲) 本期关键词: Appium.跨语言跨平台.Bootstrap 主要讲解内容及笔记: 一.what is appium 一种封装了uiautomat ...
Selenium原理初步--Android自动化测试学习历程
章节:自动化基础篇——Selenium原理初步(第五讲) 注:其实所有的东西都是应该先去用,但是工具基本都一样,底层都是用的最基础的内容实现的,测试应该做的是: (1)熟练使用工具,了解各个工具的利弊 ...
python初步（附学习思维导图）
python,原意为蟒蛇,至于它的发展史,度娘应该比我讲述的更为专业/偷笑.这里我们要梳理的是整个学习的脉络,当然,今后的随笔也会从基础部分说起,希望能给进门python的小伙伴一些建议. 一.环境的 ...
Lucene.net(4.8.0) 学习问题记录三: 索引的创建 IndexWriter 和索引速度的优化
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0) 学习问题记录二: 分词器Analyzer中的TokenStream和AttributeSource
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene.net(4.8.0) 学习问题记录四: IndexWriter 索引的优化以及思考
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
Lucene 01 - 初步认识全文检索和Lucene
目录 1 搜索简介 1.1 搜索实现方案 1.2 数据查询方法 1.2.1 顺序扫描法 1.2.2 倒排索引法(反向索引) 1.3 搜索技术应用场景 2 Lucene简介 2.1 Lucene是什么 ...

随机推荐

SQL Server 函数大全
本文链接:https://blog.csdn.net/qq_15028299/article/details/81330854SQL2008 表达式:是常量.变量.列或函数等与运算符的任意组合.htt ...
《C语言程序设计》王希杰课后答案
仅供参考,好好学习,不要骗自己哦! 在线预览预览链接: https://www.kdocs.cn/l/shOy4IgXl 下载: 链接1: http://t.cn/AiBK2mgJ 链接2: htt ...
report_delay_calculation/check_timing/report_annotated_parasitics/report_analysis_coverge
如何debug 一颗cell 或一段net 的delay, 常用的办法是用report_delay_calculation 报这颗cell 或这段net, 会得到形式如下的report, 从该rep ...
java并发框架--Fork-Join
并行计算 Fork-Join 关键类例子 package sumTest2; /** * 计算1-10000000的和 * 适用范围:计算不知道计算量大小的计算 */ import java.uti ...
零基础入门python爬虫(一)
✍写在前面: 欢迎加入纯干货技术交流群Disaster Army:317784952 接到5月25日之前要交稿的任务我就一门心思想写一篇爬虫入门的文章,可是我并不会.还好有将近一个月的时间去学习,于是 ...
原生JS实现旋转木马轮播图特效
大概是这个样子: 首先来简单布局一下(emm...随便弄一下吧,反正主要是用js来整的) <!DOCTYPE html> <html lang="en"> ...
Plastic Bottle Manufacturer Profile: Plastic Bottle Forming Process
Plastic bottle molding refers to the process of making a final plastic product from a polymer produc ...
numpy函数hstack，vstack，dstack简介
vstack.hstack和dstack都用于把几个小数组合并成一个大数组.它们的差别是小数组的元素在大数组中的排列顺序有所不同.把两部手机摆到一起有几种方式?水平的左右排列,垂直的上下排列,还可以把 ...
LoadLibrary与LoadLibraryEx
参考了这个博客:https://blog.csdn.net/cuglifangzheng/article/details/50580279 以及这个博客:https://blog.csdn.net/z ...
Spring的核心api和两种实例化方式
一.spring的核心api Spring有如下的核心api BeanFactory :这是一个工厂,用于生成任意bean.采取延迟加载,第一次getBean时才会初始化Bean Applicatio ...

Lucene的初步了解和学习

Lucene的初步了解和学习的更多相关文章

随机推荐

热门专题