lucene的两种分页操作

基于lucene的分页有两种：

lucene3.5之前分页提供的方式为再查询方式（每次查询全部记录，然后取其中部分记录，这种方式用的最多），lucene官方的解释：由于我们的速度足够快。处理海量数据时，内存容易内存溢出。

lucene3.5以后提供一个searchAfter，这个是在特大数据量采用（亿级数据量），速度相对慢一点，像google搜索图片的时候，点击更多，然后再出来一批。这种方式就是把数据保存在缓存里面。然后再去取。
以下是再查询部分代码：

	/**

	 * 这就是先查询所有的数据，然后去分页数据

     * 注意 这种方式处理海量数据的时候，容易内存溢出

	 * @param query

	 * @param pageIndex--第几页

	 * @param pageSize--每页显示多少数据

	 */

	public void searchPage(String query,int pageIndex,int pageSize) {

		try {

			Directory dir = FileIndexUtils.getDirectory();

			IndexSearcher searcher = getSearcher(dir);

			QueryParser parser = new QueryParser(Version.LUCENE_35,"content",new StandardAnalyzer(Version.LUCENE_35));

			Query q = parser.parse(query);

			TopDocs tds = searcher.search(q, 500);

			//注意 此处把500条数据放在内存里。

			ScoreDoc[] sds = tds.scoreDocs;

			int start = (pageIndex-1)*pageSize;

			int end = pageIndex*pageSize;

			for(int i=start;i<end;i++) {

				Document doc = searcher.doc(sds[i].doc);

				System.out.println(sds[i].doc+":"+doc.get("path")+"-->"+doc.get("filename"));

			}

			searcher.close();

		} catch (org.apache.lucene.queryParser.ParseException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

最后我们来看下使用SearcherAfter进行分页的方式,代码如下（lucene3.5之前不支持该方法）:

	/**

	 * 根据页码和分页大小获取上一次的最后一个scoredocs

	 * @param pageIndex

	 * @param pageSize

	 * @param query

	 * @param searcher

	 * @return

	 * @throws IOException

	 */

	private ScoreDoc getLastScoreDoc(int pageIndex,int pageSize,Query query,IndexSearcher searcher) throws IOException {

		if(pageIndex==1)return null;//如果是第一页就返回空

		int num = pageSize*(pageIndex-1);//获取上一页的最后数量

		TopDocs tds = searcher.search(query, num);

		return tds.scoreDocs[num-1];

	}

	public void searchPageByAfter(String query,int pageIndex,int pageSize) {

		try {

			Directory dir = FileIndexUtils.getDirectory();

			IndexSearcher searcher = getSearcher(dir);

			QueryParser parser = new QueryParser(Version.LUCENE_35,"content",new StandardAnalyzer(Version.LUCENE_35));

			Query q = parser.parse(query);

			//获取上一页的最后一个元素

			ScoreDoc lastSd = getLastScoreDoc(pageIndex, pageSize, q, searcher);

			//通过最后一个元素去搜索下一页的元素

			TopDocs tds = searcher.searchAfter(lastSd,q, pageSize);

			for(ScoreDoc sd:tds.scoreDocs) {

				Document doc = searcher.doc(sd.doc);

				System.out.println(sd.doc+":"+doc.get("path")+"-->"+doc.get("filename"));

			}

			searcher.close();

		} catch (org.apache.lucene.queryParser.ParseException e) {

			e.printStackTrace();

		} catch (IOException e) {

			e.printStackTrace();

		}

	}

本文转载自hu948162999博客,版权归hu948162999所有

lucene的两种分页操作的更多相关文章

SQL Server两种分页的存储过程介绍
由于现在很多的企业招聘的笔试都会让来招聘的写一个分页的存储过程,有的企业甚至要求应聘者用两种方式实现分页,如果没有在实际项目中使用过分页,那么很多的应聘者都会出现一定的问题,下面介绍两种分 ...
PostgreSQL两种分页方法查询时间比较
数据库中存了3000W条数据,两种分页查询测试时间第一种 SELECT * FROM test_table WHERE i_id> limit 100; Time: 0.016s 第二种 SE ...
lucene两个分页操作
基于lucene两个分页: lucene3.5查询方式(每次查询所有记录,然后取当中部分记录.这样的方式用的最多),lucene官方的解释:因为我们的速度足够快. 处理海量数据时.内存easy内存溢出 ...
sql server两种分页方法
方法一: --分页方法一 OrderID,CustomerID, EmployeeID,OrderDate,ShippedDate,ShipName,ShipAddress,Freight from ...
基于layPage分页插件浅析两种分页方式
最近在开发过程中经常用到分页,今天挤出些时间来捋一捋自己的经验在web开发中,一般显示数据列表页时,我们会用到分页控件来显示数据.采用分页一般基于两种不同的需求,一种是数据量不算很大,但是在页面展示 ...
两种方法操作其它mac应用的窗口
(图文基本无关) 如果单纯说简单方便,其使用AppleScript更好,特别是现在有了JS的加入,比如: (* This Apple script will resize any program wi ...
Oracle 分页 ROWNUM 两种分页方法和ROWID用法
一原因一 oracle默认为每个表生成rowmun,rowid字段,这些字段我们称之为伪列测试表 CREATE TABLE A ( AID NUMBER() primary key, ANAME ...
不使用spring的情况下原生java代码两种方式操作mongodb数据库
由于更改了mongodb3.0数据库的密码,导致这几天storm组对数据进行处理的时候,一直在报mongodb数据库连接不上的异常. 主要原因实际上是和mongodb本身无关的,因为他们改的是配置 ...
sqlalchemy和flask-sqlalchemy几种分页操作
sqlalchemy中使用query查询,而flask-sqlalchemy中使用basequery查询,他们是子类与父类的关系假设 page_index=1,page_size=10:所有分页查询 ...

随机推荐

wuzhi 五指基本知识
参数:m 模块在于 /coreframe/app/模块文件夹 |默认 content f php文件控制器在于/coreframe/app/模块 /文件.php | 默认 index v ...
chapter 12_1 数据文件
Lua的一个重要特性,就是可以作为配置文件,利用到table构造式来定义一种文件格式. 只需要在写数据时做一点额外的工作,读取数据就会变得相当容易.也就是将数据作为Lua代码输出. 当运行这些代码时, ...
利用PYTHON设计计算器功能
通过利用PYTHON 设计处理计算器的功能如: 1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 ))- (-4*3 ...
线程的实现方法以及区别 extends Thread、implements Runable
/** 线程存在于进程当中,进程由系统创建. 创建新的执行线程有两种方法注意: 线程复写run方法,然后用start()方法调用,其实就是调用的run()方法,只是如果直接启动run()方法, ...
NOIP2014-普及组复赛-第二题-比例简化
题目描述 Description 在社交媒体上,经常会看到针对某一个观点同意与否的民意调查以及结果.例如,对某一观点表示支持的有1498 人,反对的有 902人,那么赞同与反对的比例可以简单的记为14 ...
Openjudge-计算概论（A）-单词倒排
描述: 编写程序,读入一行英文(只包含字母和空格,单词间以单个空格分隔),将所有单词的顺序倒排并输出,依然以单个空格分隔. 输入输入为一个字符串(字符串长度至多为100).输出输出为按要求排续后的字符 ...
python 日历
上章总结了python中time模块的使用,这次总结日历模块 calendar >>> import calendar >>> cal = calendar.mon ...
Dell7040mt安装win7系统说明
几天新买的Dell7040mt收到了,机器预装了win10系统,把win10作为开发平台,可能会有一些问题,所以改为win7,今天折腾了一天,终于把win7系统装上了.总结一下安装的步骤. 1 准备启 ...
android log 学习
一,Bug出现了, 需要“干掉”它 bug一听挺吓人的,但是只要你懂了,android里的bug是很好解决的,因为android里提供了LOG机制,具体的底层代码,以后在来分析,只要你会看bug, a ...
LeetCode OJ 202. Happy Number
Write an algorithm to determine if a number is "happy". A happy number is a number defined ...

lucene的两种分页操作

lucene的两种分页操作的更多相关文章

随机推荐

热门专题