lucene4.7 分页
转载自http://my.oschina.net/MrMichael/blog/220782
我 们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显 然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页 技术。
在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法,
其
实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的
存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也
是一样,既然有一个docid的存在,那么上面的需求就很简单了。
方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
try { directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹 IndexReader reader=DirectoryReader.open(directory); //读取目录 IndexSearcher search= new IndexSearcher(reader); //初始化查询组件 for ( int i= 0 ;i<reader.numDocs();i++){ //numDocs可能很大 Document doc=search.doc(i); //依次获取每个docid对应的Document //可以在此部,做个批量操作,加快写入速度 } reader.close(); //关闭资源 directory.close(); //关闭连接 } catch (Exception e){ e.printStackTrace(); } |
Lucene的分页,总的来说有两种形式,总结如下图表格。(如果存在不合适之处,欢迎指正!)
编号 | 方式 | 优点 | 缺点 |
1 | 在ScoresDocs里进行分页 | 无需再次查询索引,速度很快 | 在海量数据时,会内存溢出 |
2 | 利用SearchAfter,再次查询分页 | 适合大批量数据的分页 | 再次查询,速度相对慢一点,但可以利用缓存弥补 |
从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。
在
我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足
够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式
在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
try { directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹 IndexReader reader=DirectoryReader.open(directory); //读取目录 IndexSearcher search= new IndexSearcher(reader); //初始化查询组件 TopDocs all=search.search( new MatchAllDocsQuery(), 50000 ); int offset= 0 ; //起始位置 int pageSize= 30 ; //分页的条数 int total= 30 ; //结束条数 int z= 0 ; while (z<= 50 ){ //总分页数 System.out.println( "==============================" ); pageScoreDocs(offset,total,search, all.scoreDocs); //调用分页打印 offset=(z*pageSize+pageSize); //下一页的位置增量 z++; //分页数+1; total=offset+pageSize; //下一次的结束分页量 } reader.close(); //关闭资源 directory.close(); //关闭连接 } catch (Exception e){ e.printStackTrace(); } |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
public void pageScoreDocs( int offset, int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{ //System.out.println("offset:"+offset+"===>"+total); for ( int i=offset;i<total;i++){ //System.out.println("i"+i+"==>"+doc.length); if (i>doc.length- 1 ){ //当分页的长度数大于总数就停止 break ; } else { Document dosc=searcher.doc(doc[i].doc); System.out.println(dosc.get( "name" )); } } |
最后我们来看下使用SearcherAfter进行分页的方式,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
try { directory=FSDirectory.open( new File(indexReadPath)); //打开索引文件夹 IndexReader reader=DirectoryReader.open(directory); //读取目录 IndexSearcher search= new IndexSearcher(reader); //初始化查询组件 int pageStart= 0 ; ScoreDoc lastBottom= null ; //相当于pageSize while (pageStart< 10 ){ //这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作 TopDocs paged= null ; paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(), null , 30 ); //查询首次的30条 if (paged.scoreDocs.length== 0 ){ break ; //如果下一页的命中数为0的情况下,循环自动结束 } page(search,paged); //分页操作,此步是传到方法里对数据做处理的 pageStart+=paged.scoreDocs.length; //下一次分页总在上一次分页的基础上 lastBottom=paged.scoreDocs[paged.scoreDocs.length- 1 ]; //上一次的总量-1,成为下一次的lastBottom } reader.close(); //关闭资源 directory.close(); //关闭连接 } catch (Exception e){ e.printStackTrace(); } |
至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。
lucene4.7 分页的更多相关文章
- Lucene全文检索技术
Lucene全文检索技术 今日大纲 ● 搜索的概念.搜索引擎原理.倒排索引 ● 全文索引的概念 ● 使用Lucene对索引进行CRUD操作 ● Lucene常用API详解 ● ...
- Lucene4.X 高级应用
Lucene 简介以及使用 Lucene, 一个基于 Java 的开源的全文搜索工具包,可以方便的嵌入到各种应用系统中,实现针对应用的全文索引以及检索功能.目前是 Apache jakarta 项目 ...
- 用Lucene4.5对中文文本建立索引
这里需要完成一个能对txt文本建立索引,并能完成检索查询.完成这个功能,使用的是Lucene4.5,同时使用其自带的中文分析器. 准备工作是在一个文件夹里面建一些txt文件,这是我的文件结构: 首先要 ...
- lucene4.10.2实例(增删改查)
最新jar和src免费下载:http://download.csdn.net/detail/u011518709/8248403 lucene 包的组成结构:对于外部应用来说索引模块(index)和检 ...
- 记一次SQLServer的分页优化兼谈谈使用Row_Number()分页存在的问题
最近有项目反应,在服务器CPU使用较高的时候,我们的事件查询页面非常的慢,查询几条记录竟然要4分钟甚至更长,而且在翻第二页的时候也是要这么多的时间,这肯定是不能接受的,也是让现场用SQLServerP ...
- js实现前端分页页码管理
用JS实现前端分页页码管理,可以很美观的区分页码显示(这也是参考大多数网站的分页页码展示),能够有很好的用户体验,这也是有业务需要就写了一下,还是新手,经验不足,欢迎指出批评! 首先先看效果图: 这是 ...
- JdbcTemplate+PageImpl实现多表分页查询
一.基础实体 @MappedSuperclass public abstract class AbsIdEntity implements Serializable { private static ...
- MVC如何使用开源分页插件shenniu.pager.js
最近比较忙,前期忙公司手机端接口项目,各种开发+调试+发布现在几乎上线无问题了:虽然公司项目忙不过在期间抽空做了两件个人觉得有意义的事情,一者使用aspnetcore开发了个人线上项目(要说线上其实只 ...
- NET Core-TagHelper实现分页标签
这里将要和大家分享的是学习总结使用TagHelper实现分页标签,之前分享过一篇使用HtmlHelper扩展了一个分页写法地址可以点击这里http://www.cnblogs.com/wangrudo ...
随机推荐
- MAC VIM 自定义主题
先从百度云下载 两个 文件 molokai.vim MacVim-snapshot-73-Mavericks.tbz 把macvim 拖到 应用程序里 ,把 mvim 放到 /bin/ 文件夹里 把 ...
- chapter5 函数
在lua中,函数是语句和表达式体现的主要机制.函数可以完成某些特定的任务.计算和返回执行结果. 前者当成一个语句,后者当成一个表达式: *,/) a = ) + ) print(os.date()) ...
- 10.按要求编写Java应用程序。 (1)创建一个叫做People的类: 属性:姓名、年龄、性别、身高 行为:说话、计算加法、改名 编写能为所有属性赋值的构造方法; (2)创建主类: 创建一个对象:名叫“张三”,性别“男”,年龄18岁,身高1.80; 让该对象调用成员方法: 说出“你好!” 计算23+45的值 将名字改为“李四”
package com.hanqi.test; public class People { private String name,sex; private int age; private doub ...
- spring中JdbcTemplate的使用
一.首先JdbcTemplate有一个DataSource类型的属性,所以需要在spring的配置文件中为JdbcTemplate的实例配置dataSource属性: <!-- 导入资源文件 - ...
- android Handler vs Timer
Handler vs Timer 在我们Android开发过程中,经常需要执行一些短周期的定时任务,这时候有两个选择Timer或者Handler.然而个人认为: Handler 在多个方面比Timer ...
- android应用开发小技巧
1,实现应用可以安装到SD卡里面去:在AndroidManifest.xml文件的manifest里面添加下面一行: 1 android:installLocation="preferExt ...
- UESTC 1217 The Battle of Chibi
dp+树状数组优化. dp[i][j]表示以a[i]结尾,最长上升序列长度为j的方案数.dp[i][j]=sum{dp[k][j-1]} 其中k<i&&a[k]<a[i]. ...
- 交互式shell和非交互式shell的区别
交互式模式就是shell等待你的输入,并且执行你提交的命令.这种模式被称作交互式是因为shell与用户进行交互.这种模式也是大多数用户非常熟悉的:登录.执行一些命令.签退.当你签退后,shell也终止 ...
- AC_CONFIG_HEADER
configure.in里有宏AC_CONFIG_HEADER()时用. AC_CONFIG_HEADER宏用于生成config.h文件,以便autoheader使用.
- android网络编程之HttpUrlConnection的讲解--DownLoadManager基本用法
1.DownLoadManager是Android用系统服务(Service)的方式来优化处理长时间的下载操作的一个工具类.避免了我们去处理多线程,通知栏等等. 2.不要忘记添加权限 <uses ...