索引的操作

我们建立所有就是要达到快速检索的目的,对数据能够方面便的查找,和数据库类似,索引也有自己的相关增删改查的操作。 
在索引的增删改查中,增删改属于写操作,主要是有IndexWrite提供的方法处理;而查显而易见,读操作,使用IndexSeacher 提供的方法来实现。在Lucene的官方文档找到 org.apache.lucene.index.IndexWriter 这个类,我们就可以看到他很多方法。

创建索引

如同上一章里面的代码,创建索引时先建立文件,创建索引的域,再使用IndexWriter的addDocument()方法就可以了,核心代码如下:

iwriter = new IndexWriter(directory, new IndexWriterConfig(version, new StandardAnalyzer(version)));

for(String text : content){ doc = new Document();

//使用的field 有很多类型,理解他们的区别 例如:TextField 和 StringField等

doc.add(new TextField("content", text,Field.Store.YES));

iwriter.addDocument(doc);

}

索引删除

索引删除包括只删除索引下面的document和删除索引文件 
在IndexWriter有如下一些方法

  1. deleteAll() 删除索引中所有的documents
  2. deleteDocuments(Query… queries) 按照提供的Query 删除documents
  3. deleteDocuments(Term… terms) 按照短语删除documents
  4. deleteUnusedFiles() 删除所有不再使用index的文件
  5. forceMergeDeletes() 删除处于已经删除的状态documents,由此可见,之前的删除文档的方法并没有真正的删除掉的documents,只是标记删除,我个人理解是类似逻辑上的删除
  6. forceMergeDeletes(boolean doWait) 删除过程中指明是否阻塞,直到操作完成

索引更新

更新操作也是一样,查看文档就有,这里截个图:

索引查询

Query 
索引查询的时候可以使用Query的实现子类来创建查询,执行IndexSearcher的search方法来查询,也可以使用QueryParse类来构造查询.

分页

  • 方式1:在scoreDoc中进行分页,数据一次性查出来,在结果集分页,结果集较大时容易溢出
  • 方式2:使用searcheAfter,等价查询的次数,但是不会出现查询结果溢出,推荐,类似数据库中的分页查询

这个类似数据库中的查询,可以对结果集分页显示,类似方式一,查询的时候直接分页,类似方式二 。

索引操作实例

package lucene_demo03;

import java.io.IOException;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;

/**
*
* 关于索引的查询(分页查询) 方式1:在scoreDoc中进行分页,数据一次性查出来,在结果集分页,结果集较大时容易溢出
* 方式2:使用searcheAfter,等价查询的次数,但是不会出现查询结果溢出,推荐,类似数据库中的分页查询
*
* @author YipFun
*/
public class LuceneDemo03
{

  private static final Version version = Version.LUCENE_4_9;
  private Directory directory = null;
  private DirectoryReader ireader = null;
  private IndexWriter iwriter = null;

  // 测试数据
  private String[] content = { "hello lucene", "I love coding", "I can play basketball", "I can play football", "I can play dota" };

  /**
  * 构造方法
  */
  public LuceneDemo03()
  {
    directory = new RAMDirectory();
  }

  /**
  * 创建索引
  */
  public void createIndex()
  {
    Document doc = null;
  try
  {
    iwriter = new IndexWriter(directory, new IndexWriterConfig(version, new StandardAnalyzer(version)));
    for (String text : content)
    {
      doc = new Document();
      // 使用的field 有很多类型,理解他们的区别 例如:TextField 和 StringField
      doc.add(new TextField("content", text, Field.Store.YES));
      iwriter.addDocument(doc);
    }

  } catch (IOException e)
  {
    e.printStackTrace();
  } finally
  {
    try
    {
      if (iwriter != null)
      iwriter.close();
    } catch (IOException e)
    {
      e.printStackTrace();
    }
  }

}

  public IndexSearcher getSearcher()
  {
  try
  {
    if (ireader == null)
    {
      ireader = DirectoryReader.open(directory);
    } else
    {
      DirectoryReader tr = DirectoryReader.openIfChanged(ireader);
      if (tr != null)
      {
        ireader.close();
        ireader = tr;
      }
    }
    return new IndexSearcher(ireader);
    } catch (CorruptIndexException e)
    {
      e.printStackTrace();
    } catch (IOException e)
    {
      e.printStackTrace();
    }
    return null;
  }

  /**
  *
  * @param field
  * @param term
  * @param num
  */
  public void searchByTerm(String field, String term, int num)
  {
    IndexSearcher isearcher = getSearcher();
    // 注意query的实现类和QueryParse的用法的区别
    TermQuery query = new TermQuery(new Term(field, term));
    ScoreDoc[] hits;
    try
    {
      // 注意searcher的几个方法
      hits = isearcher.search(query, null, num).scoreDocs;
      // Iterate through the results:
      for (int i = 0; i < hits.length; i++)
      {
        Document hitDoc = isearcher.doc(hits[i].doc);
        System.out.println("This is the text to be indexed=" + hitDoc.get("content"));
      }
    } catch (IOException e)
    {
      e.printStackTrace();
    }
  }

  /**
  * 区别与上一种查询,使用QueryParser的parse方法构造一个Query传递给方式使用
  *
  * @param query
  * @param num
  */
  public void searchByQueryParse(Query query, int num)
  {
    try
    {
      IndexSearcher searcher = getSearcher();
      TopDocs tds = searcher.search(query, num);
      System.out.println("一共查询了:" + tds.totalHits);
      for (ScoreDoc sd : tds.scoreDocs)
      {
        Document doc = searcher.doc(sd.doc);
        System.out.println("This is the text to be indexed=" + doc.get("content"));
      }
    } catch (CorruptIndexException e)
    {
       e.printStackTrace();
    } catch (IOException e)
    {
      e.printStackTrace();
    }
  }

  /**
  * 第一中分页方式,对ScoreDoc进行分页
  *
  * @param query
  * @param pageIndex
  * 从1开始,即第一页
  * @param pageSize
  * 分页大小
  * @param num
  * search top n hits
  */
  public void searchForPage(Query query, int pageIndex, int pageSize, int num)
  {
    try
    {
      IndexSearcher searcher = getSearcher();
      TopDocs tds = searcher.search(query, num);
      System.out.println("一共查询了:" + tds.totalHits);
      // 对ScoreDoc分页
      int start = (pageIndex - 1) * pageSize;
      int end = pageIndex * pageSize;
      ScoreDoc scoreDocs[] = tds.scoreDocs;
      for (int i = start; i < end; i++)
      {
        Document doc = searcher.doc(scoreDocs[i].doc);
        System.out.println("This is the text to be indexed=" + doc.get("content"));
      }
    } catch (CorruptIndexException e)
    {
        e.printStackTrace();
    } catch (IOException e)
    {
      e.printStackTrace();
    }
  }

  /**
  * 使用searchAfter 实现在查询的时候的分页
  *
  * @param query
  * @param pageIndex
  * @param pageSize
  * @throws IOException
  */
  public void searchForPageByAfter(Query query, int pageIndex, int pageSize) throws IOException
  {
    IndexSearcher searcher = getSearcher();
    // 先获取上一页的最后一个元素
     ScoreDoc lastSd = getLastScoreDoc(pageIndex, pageSize, query, searcher);
    TopDocs tds = searcher.searchAfter(lastSd, query, pageSize);
    for (ScoreDoc sd : tds.scoreDocs)
    {
      Document doc = searcher.doc(sd.doc);
      System.out.println("This is the text to be indexed=" + doc.get("content"));
    }

  }

  /**
  * 返回分页查询的上一条
  *
  * @param pageIndex
  * @param pageSize
  * @param query
  * @param indexSearcher
  * @return
  */
  private ScoreDoc getLastScoreDoc(int pageIndex, int pageSize, Query query, IndexSearcher searcher)
  {
    if (pageIndex == 1)
    return null;// 如果是第一页就返回空
    int num = pageSize * (pageIndex - 1);// 获取上一页的数量
    TopDocs tds = null;
    try
    {
      tds = searcher.search(query, num);
    } catch (IOException e)
    {
      e.printStackTrace();
  }
  return tds.scoreDocs[num - 1];
  }

  public static void main(String[] args) throws ParseException, IOException
  {
    LuceneDemo03 ld = new LuceneDemo03();
    ld.createIndex();
    ld.searchByTerm("content", "play", 500);
    System.out.println("==============1======================");

    QueryParser parser = new QueryParser(version, "content", new StandardAnalyzer(version));
    Query q = parser.parse("play");// 研究下parse的语法
    ld.searchByQueryParse(q, 500);
    System.out.println("===============2=====================");

    ld.searchForPage(q, 1, 2, 500);// 从第一页开始
    System.out.println("================3====================");

    ld.searchForPageByAfter(q, 1, 2);// 从第一页开始
    System.out.println("================4====================");
  }

}

Lucene基础(二)--索引的操作的更多相关文章

  1. 基础DOM和CSS操作(二)

    元素样式操作 元素样式操作包括了直接设置CSS样式.增加CSS类别.类别切换.删除类别这几种操作方法.而在整个jQuery使用频率上来看,CSS样式的操作也是极高的,所以需要重点掌握. CSS操作方法 ...

  2. 01 lucene基础 北风网项目培训 Lucene实践课程 索引

    在创建索引的过程中IndexWriter会创建多个对应的Segment,这个Segment就是对应一个实体的索引段.随着索引的创建,Segment会慢慢的变大.为了提高索引的效率,IndexWrite ...

  3. oracle 基础知识(十二)----索引

    一, 索引介绍 索引与表一样,也属于段(segment)的一种.里面存放了用户的数据,跟表一样需要占用磁盘空间.索引是一种允许直接访问数据表中某一数据行的树型结构,为了提高查询效率而引入,是一个独立于 ...

  4. day 70 Django基础五之django模型层(二)多表操作

    Django基础五之django模型层(二)多表操作   本节目录 一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询.分组查询.F查询和Q查询 六 ORM ...

  5. day 56 Django基础五之django模型层(二)多表操作

    Django基础五之django模型层(二)多表操作   本节目录 一 创建模型 二 添加表记录 三 基于对象的跨表查询 四 基于双下划线的跨表查询 五 聚合查询.分组查询.F查询和Q查询 六 ORM ...

  6. Lucene基础(2)

    上一篇:Lucene基础(1) 一.Lucene术语 Document, Field, Term, Query, Analyzer相信在其中大多数在之前已经理解了...对其中部分概念详细说明 Docu ...

  7. Lucene基础(1)

    下一篇: Lucene基础(2) 一.Lucene介绍 http://www.kailing.pub/index/columns/colid/16.html Documentation:http:// ...

  8. Python全栈开发【基础二】

    Python全栈开发[基础二] 本节内容: Python 运算符(算术运算.比较运算.赋值运算.逻辑运算.成员运算) 基本数据类型(数字.布尔值.字符串.列表.元组.字典) 其他(编码,range,f ...

  9. Python array,list,dataframe索引切片操作 2016年07月19日——智浪文档

    array,list,dataframe索引切片操作 2016年07月19日——智浪文档 list,一维,二维array,datafrme,loc.iloc.ix的简单探讨 Numpy数组的索引和切片 ...

随机推荐

  1. Introducing the Blog Module

    Introducing the Blog Module Now that we know about the basics of the zend-mvc skeleton application, ...

  2. windows下mysql初始密码设置

    转载自:http://blog.csdn.net/ofreelander/article/details/50802780 1.my-default.ini 改名my.ini 在解压的目录下面复制my ...

  3. RESTful HTTP实践

    http://www.infoq.com/cn/articles/designing-restful-http-apps-roth 摘要: 本文对RESTful HTTP的基础原理做了一个概览,探讨了 ...

  4. VSPackge插件系列:常用IDE功能的封装

    继上一篇VSPackge插件系列简单介绍如何正确的获取DTE之后,就一直没发VSPackge插件系列的文章了,最近同事也想了解如何在代码中与VS交互,特发一篇文章示例一些简单功能是如何调用,也以备以后 ...

  5. -bash: lampp: command not found解决方案

    在/opt目录下安装完lampp后,需要到/opt/lampp/下执行lampp启动或者停止服务,如果在其余目录下执行lampp,会提示:-bash: lampp: command not found ...

  6. [记录]java.math.biginteger cannot be cast to java.lang.long

    可以直接使用BigInteger类型进行接收, BigInteger id = (BigInteger)QueryRunner(conn,"SELECT LAST_INSERT_ID&quo ...

  7. .NET学习笔记(4) — C#数据类型

    目录 一:C#数据类型介绍 二:值类型和引用类型的区别和联系? 三:堆内存和栈内存? 四:参考资料   一:C#数据类型介绍   1:初识C#预定义数据类型 在C#的语言体系中,表示具体数据格式的规范 ...

  8. margin,padding之我见

    在网页布局中,margin和padding绝对会占很重要的作用,但是在实际的项目中,很多新手前端程序员们往往不能正确的使用它们,导致会出现一些不必要的麻烦,下面是我在前几天的项目中遇到的一些问题,以及 ...

  9. session的介绍与简单使用

    cookie由浏览器带着,容易被篡改因为cookie很容易被篡改,所以cookie用来记住用户名,记住浏览历史等安全性要求不高的地方可以用sessin技术session技术将信息存入服务器,然后再给客 ...

  10. 【译文】NginScript – 为什么我们要实现自己的JS引擎?

    在上周的nginx.conf 2015用户大会上,我们发布了全新的JavaScript引擎nginscript的预览版.历史上,JavaScript语言已经应用在许多方面,首先是作为客户端脚本,然后又 ...