lucene&solr学习——索引维护

1.索引库的维护

索引库删除

(1) 全删除

第一步：先对文档进行分析

    public IndexWriter getIndexWriter() throws Exception {

//        第一步：创建java工程，并导入jar包

//        第二步：创建一个indexwriter对象(创建索引)

//        　　1.指定索引库的存放位置Directory对象

        Directory directory = FSDirectory.open(Paths.get("E:\\temp\\index"));  //文件系统目录 file system directory

//        Directory directory2 = new RAMDirectory();

//        　　2.指定一个分析器，对文档内容进行分析

        Analyzer analyzer = new StandardAnalyzer();//官方推荐分词器

        IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);

        IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);

        return indexWriter;

    }

第二步：直接调用IndexWriter的deleteAll方法

@Test

    public void testAllDelete() throws Exception {

        IndexWriter indexWriter = getIndexWriter();

        indexWriter.deleteAll();

        indexWriter.close();

    }

(2) 根据条件删除

第一步：与上面代码一样

第二步：使用IndexWriter的deleteDocuments方法，传入query条件

@Test

    public void testDelete() throws Exception {

        IndexWriter indexWriter = getIndexWriter();

        Query query = new TermQuery(new Term("fileName", "apache"));

        indexWriter.deleteDocuments(query);

        indexWriter.close();

    }

索引库修改

对索引库的修改，其实就是先删除，在添加。

第一步：同上

第二步：调用IndexWriter的updateDocument方法

//修改

    @Test

    public void testUpdate() throws Exception {

        IndexWriter indexWriter = getIndexWriter();

        Document doc = new Document();

        doc.add(new TextField("fileN", "测试文件名", Store.YES));

        doc.add(new TextField("fileC", "测试文件内容", Store.YES));

        indexWriter.updateDocument(new Term("fileName", "spring"), doc);

        indexWriter.close();

    }

索引库查询所有

(1) 使用query的子类查询 (用对象查)

　　(1.1) MatchAllDocsQuery

//IndexReader    IndexSearcher

    public IndexSearcher getIndexSearcher() throws Exception {

//        第一步：创建一个Directory对象，也就是索引库存放的位置

        Directory directory = FSDirectory.open(Paths.get("E:\\temp\\index"));

//        第二步：创建一个indexReader对象，需要指定Directory对象

        IndexReader indexReader =DirectoryReader.open(directory);

//        第三步：创建一个indexsearcher对象，需要指定IndexReader对象

        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

        return indexSearcher;

    }

    //执行查询结果

    public void printResult(IndexSearcher indexSearcher, Query query) throws Exception {

//        第五步：执行查询。

        TopDocs topDocs = indexSearcher.search(query, 10);

//        第六步：返回查询结果，遍历查询结果并输出

        ScoreDoc[] scoreDocs = topDocs.scoreDocs;

        for (ScoreDoc scoreDoc : scoreDocs) {

            int doc = scoreDoc.doc;

            Document document = indexSearcher.doc(doc);

            //文件名称

            String fileName = document.get("fileName");

            System.out.println(fileName);

            //文件内容

            String fileContent = document.get("fileContent");

            System.out.println(fileContent);

            //文件路径

            String fileSize = document.get("fileSize");

            System.out.println(fileSize);

            //文件大小

            String filePath = document.get("filePath");

            System.out.println(filePath);

            System.out.println("---------");

        }

    }

    //查询所有

    @Test

    public void testMatchAllDocsQuery() throws Exception  {

        IndexSearcher indexSearcher = getIndexSearcher();

        Query query = new MatchAllDocsQuery();

        printResult(indexSearcher, query);

        //关闭资源

        indexSearcher.getIndexReader().close();

    }

　　(1.2) TermQuery 精准查询，之前已经说过。

　　(1.3) 根据数值范围查询 (注意：数值范围是否包括边界，使用的方法不一样).

//根据数值范围查询

    /*

        版本更新说明:

        在lucene4.10中,关于数字范围的查询是使用的NumericRangerQuery

        使用方式:

        Query query = NumericRangerQuery.newFloatRange(域名,较小值,较大值,是否包含较小值,是否包含较大值)

        在lucene6.6中(不知最早在什么版本,没有细查),NumericRangerQuery被legacyNumericRangerQuery替代

        在lucene7中(应该是从7开始的),lucene开始使用PointValue来替代之前的Filed.而数字范围查询方法也进行了修改,

        Float/Long/IntPoint.newRangeQuery取代了之前的NumericRangeQuery的newFloat/Long/IntRange

        使用方法:

        Query query = Float.newRangeQuery(域名,较小值,较大值);

        而这种查询方法默认包含范围的端点值,即查询的是  较小值<=域名<=较大值

        如果不想包含端点值:

            1.不包含左端点值(即较小值):Query query = Float.newRangeQuery(域名,FloatPoint.nextUp(较小值),较大值);

            2.不包含右端点值(即较大值):Query query = Float.newRangeQuery(域名,较小值,Float.nextDown(较大值));

            3.均不包含:结合1和2即可

     */

    @Test

    public void testNumericRangeQuery() throws Exception  {

        IndexSearcher indexSearcher = getIndexSearcher();

        Query query = LongPoint.newRangeQuery("fileSize", 47L, 200L);

        printResult(indexSearcher, query);

        //关闭资源

        indexSearcher.getIndexReader().close();

    }

　　(1.3) 组合查询条件

//可以组合查询条件

    /*

        1、MUST和MUST表示“与”的关系，即“交集”。

        2、MUST和MUST_NOT前者包含后者不包含。

        3、MUST_NOT和MUST_NOT没意义

        4、SHOULD与MUST表示MUST，SHOULD失去意义；

        5、SHOUlD与MUST_NOT相当于MUST与MUST_NOT。

        6、SHOULD与SHOULD表示“或”的概念。

       版本更新说明:

       在lucene 4.10.3中,组合查询还有无参构造方法,可以通过下面这种方式实现组合查询:

       Query query = new BooleanQuery()

       //添加查询条件,并指定该条件的判断级别

       query.add(query1,Occur.MUST);

       query.add(query2,Occur.MUST);

       在lucene7.1中,组合查询只有一个有参构造方法,并没有无参构造方法.而是多了一个静态内部类Builder

       public static class Builder {

           private int minimumNumberShouldMatch;

           private final List<BooleanClause> clauses = new ArrayList<>();

           //大概是4.10.3中的BooleanQuery的无参构造

           public Builder() {}

           //设置最小需要匹配的数

            public Builder setMinimumNumberShouldMatch(int min) {

                this.minimumNumberShouldMatch = min;

                return this;

           }

           public Builder add(BooleanClause clause) {

                 if (clauses.size() >= maxClauseCount) {

                    throw new TooManyClauses();

               }

               clauses.add(clause);

               return this;

            }

            //4.10.3中的BooleanQuery的add方法,支持链式编程(一般使用这个add方法)

           public Builder add(Query query, Occur occur) {

               return add(new BooleanClause(query, occur));

           }

           //返回一个BooleanQuery,用于构造Query

           public BooleanQuery build() {

                return new BooleanQuery(minimumNumberShouldMatch, clauses.toArray(new BooleanClause[0]));

           }

       }

       7.1中,Occur.MUST等全都放到了BooleanClause中,所以,Occur.MUST等变成了BooleanClause.Occur.MUST等

       所以在lucene中,组合查询的使用方法:

       Query booleanQuery = new BooleanQuery.Builder().add(query1,BooleanClause.Occur.MUST).add(query2,Boolean.Occur.MUST).build();

    */

    public void testBooleanQuery() throws Exception  {

        IndexSearcher indexSearcher = getIndexSearcher();

        Query query1 = new TermQuery(new Term("fileName","lucene"));

        Query query2 = new TermQuery(new Term("fileName","springmvc"));

        //Occur有MUST, SHOULD, MUST_NOT, FILTER

        BooleanQuery booleanQuery = new BooleanQuery.Builder().add(query1, Occur.MUST).add(query2, Occur.SHOULD).build();

        printResult(indexSearcher, booleanQuery);

        //关闭资源

        indexSearcher.getIndexReader().close();

    }

(2) 使用queryparser查询 (用语法查)

　　(2.1) 基础的语法查询，关键词查询：

　　域名 + ":" + 搜索的关键字

//条件解析的对象查询

    @Test

    public void testQueryParser() throws Exception  {

        IndexSearcher indexSearcher = getIndexSearcher();

        //参数1，默认查询的域

        QueryParser queryParser = new QueryParser("fileName", new IKAnalyzer());

        // "*:*" : 表示查询所有  "域:值"

        Query query = queryParser.parse("springcloud is springmvc");

        printResult(indexSearcher, query);

    }

　　(2.2) 范围查询

　　域名 + " ：" + [最小值 TO 最大值]

　　例如：size：[1 TO 100]

　　范围查询在lucene中支持数值类型，不支持字符串类型。在solr中支持字符串类型。

　　(2.3) 组合条件查询

　　　　(2.3.1) +条件1+条件2：两个条件之间是并且的关系 and

　　　　例如：+fileName:apache + content:apache

　　　　(2.3.2) +条件1 条件2 ：必须满足第一个条件，应该满足第二个条件

　　　　例如：+filename:apache content:apache

　　　　(2.3.3)条件1 条件2：两个条件满足其一即可

　　　　例如：filename:apache content:apache

　　　　(2.3.4) -条件1 条件2：必须不满足条件1，要满足条件2

　　　　例如：-filename:apache content:apache

(3) 多个默认检索 MultiFieldQueryParser

//条件解析对象查询  多个默认域

    @Test

    public void testMultiFieldQueryParser() throws Exception  {

        IndexSearcher indexSearcher = getIndexSearcher();

        //参数1，多个默认查询的域

        String[] fields = {"fileName", "fileContent"};

        //参数2，采用分词器

        MultiFieldQueryParser queryParser = new MultiFieldQueryParser(fields, new IKAnalyzer());

        // "*:*" : 表示查询所有  "域:值"

        Query query = queryParser.parse("apache is lucene");

        printResult(indexSearcher, query);

    }

lucene&solr学习——索引维护的更多相关文章

lucene&solr学习——solr学习(一)
1.什么是solr solr是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文检索服务器.Solr提供了比lucene风味丰富的查询语言,同时实现了可配置,可扩展,并对索 ...
lucene&solr学习——创建和查询索引(代码篇)
1. Lucene的下载 Lucene是开发全文检索功能的工具包,从官网下载Lucene4.10.3并解压. 官网:http://lucene.apache.org/ 版本:lucene7.7.0 ( ...
lucene&solr学习——solr学习(二) Solr管理索引库
1.什么是solrJ solrj是访问Solr服务的java客户端,提供索引和搜索的请求方法,SolrJ通常在嵌入在业务系统中,通过SolrJ的API接口操作Solr服务,如下图: 依赖jar包: 2 ...
lucene&solr学习——创建和查询索引(理论)
1.Lucene基础 (1) 简介 Lucene是apache下的一个开放源代码的全文检索引擎工具包.提供完整的查询引擎和索引引擎:部分文本分析引擎. Lucene的目的是为软件开发人员提供一个简单易 ...
lucene&solr学习——分词器
下图是语汇单元的生成过程: 从一个Reader字符流开始,创建基于Reader的Tokenizer分词器,经过三个TokenFilter生成语汇单元Tokens. 要看分词器的分析效果,只需要看Tok ...
Lucene 的 Field 域和索引维护
一.Field 域 1.Field 属性 Field 是文档中的域,包括 Field 名和 Field 值两部分,一个文档可以包括多个 Field,Document 只是 Field 的一个承载体,F ...
Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引
Solr学习笔记之3.Solr导入SQLServer数据建立索引一.下载MSSQLServer的JDBC驱动下载:Microsoft JDBC Driver 4.0 for SQL Server ...
lucene实践 - 索引维护、多域查询、高亮显示
之前的博客搜索栏用的是 sql 模糊查询进行查找,最近学完lucene,要学以致用啊,就把sql搜索给替换下来吧中间遇到一些问题,也是学过程中没有提到的,所以说,还是实践出真知啊. lucene分开 ...
Lucene&Solr框架之第二篇
2.1.开发环境准备 2.1.1.数据库jar包我们这里可以尝试着从数据库中采集数据,因此需要连接数据库,我们一直用MySQL,所以这里需要MySQL的jar包 2.1.2.MyBatis的jar包 ...

随机推荐

【卷土重来之C#学习笔记】（三）类的基本概念
1.类的概述程序的数据和功能被组织为逻辑上相关的数据项和函数的封装集合,并被称为类. 类是一个能存储数据并执行代码的数据结构. 它包含数据成员和函数成员: 数据成员:存储与类或类的实例相关数 ...
BNU27932——Triangle——————【数学计算面积】
Triangle Time Limit: 1000ms Memory Limit: 65536KB 64-bit integer IO format: %lld Java class nam ...
VMWare启动虚拟机失败，提示锁定文件失败解决方法
1.问题描述:未正常关闭虚拟机,重新启动时,VMWare启动虚拟机失败 2.解决方法: ①找到该虚拟系统所在的目录,即弹出框中的目录,在目录中找到Windows XP Professional.vmx ...
安卓API版本
微信小程序支付c#后台实现
今天为大家带来比较简单的支付后台处理首先下载官方的c#模板(WxPayAPI),将模板(WxPayAPI)添加到服务器上,然后在WxPayAPI项目目录中添加两个“一般处理程序” (改名为GetOp ...
C#程序执行时间
Stopwatch类 using System.Diagnostics; static void Main(string[] args) { Stopwatch stopWatch = new Sto ...
（三）css之浮动&定位
众所周知,一个页面可能包含多个div,如何对这些div进行排列,以便具有较好的显示效果呢? css提供了浮动和定位两个属性进行div的排列,下面主要针对浮动和定位进行详细地阐述. (一)何为浮动? 浮 ...
python发送邮件（带附件）
python通过stmp发送qq邮件,带附件 import smtplib from email.mime.multipart import MIMEMultipart from email.mime ...
测试css3的动画效果在display:none的时候不耗费性能
也许你也有这个疑惑,动画一直在播放,那它不显示出来的时候也一直在播放的话,那是否一直占用资源呢? <!doctype html> <html> <head> < ...
socket programming

lucene&solr学习——索引维护

lucene&solr学习——索引维护的更多相关文章

随机推荐

热门专题