Lucene 时间排序

在Lucene4.4中，想要实现搜索结果按照时间倒序的效果：如果两个文档得分相同，那么就按照发布时间倒序排列；否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单，直接利用search接口的Sort参数即可达成，完全不需要像某些人说的重写Similarity那么麻烦。三两行代码的事情，体现了Make it simple, stupid的精髓。

首先来看看测试例子，这个例子中我建立了四个文档，按照内容-发布日期来表示分别是：

2004年光棍节攻略 , 20041111

2005年光棍节攻略 , 20051111

2006年光棍节攻略 , 20061111

游戏攻略，20141111

统一使用“光棍节攻略”来搜索它们，用户希望最新的光棍节攻略排在第一。

如果不做排序处理的话，用户体验非常糟糕：

package com.hankcs.test;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;
import org.apache.lucene.queries.CustomScoreQuery;
import org.apache.lucene.queries.function.FunctionQuery;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
import java.io.IOException;
/**
* @author hankcs
*/
public class TestSortByTime
{
public static void main(String[] args)
{
// Lucene Document的主要域名
String fieldName = "text";
// 实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();
Directory directory = null;
IndexWriter iwriter;
IndexReader ireader = null;
IndexSearcher isearcher;
try
{
//索引过程**********************************
//建立内存索引对象
directory = new RAMDirectory();
//配置IndexWriterConfig
IndexWriterConfig iwConfig = new IndexWriterConfig(Version.LUCENE_46, analyzer);
iwConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
iwriter = new IndexWriter(directory, iwConfig);
//写入索引
for (int i = 0; i < 3; ++i)
{
int year = 2004 + i;
Document doc = new Document();
doc.add(new TextField(fieldName, year + "年光棍节攻略", Field.Store.YES));
doc.add(new IntField("date", year * 10000 + 1111, Field.Store.YES));
iwriter.addDocument(doc);
}
// 加入一个干扰文档
Document doc = new Document();
doc.add(new TextField(fieldName, "游戏攻略", Field.Store.YES));
doc.add(new IntField("date", 20141111, Field.Store.YES));
iwriter.addDocument(doc);
iwriter.close();
//搜索过程**********************************
//实例化搜索器
ireader = DirectoryReader.open(directory);
isearcher = new IndexSearcher(ireader);
String keyword = "光棍节攻略";
//使用QueryParser查询分析器构造Query对象
QueryParser qp = new QueryParser(Version.LUCENE_46, fieldName, analyzer);
Query query = qp.parse(keyword);
System.out.println("Query = " + query);
//搜索相似度最高的5条记录
TopDocs topDocs = isearcher.search(query, 5);
System.out.println("命中：" + topDocs.totalHits);
//输出结果
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (int i = 0; i < Math.min(5, scoreDocs.length); i++)
{
Document targetDoc = isearcher.doc(scoreDocs[i].doc);
System.out.print(targetDoc.getField(fieldName).stringValue());
System.out.print(" , " + targetDoc.getField("date").numericValue());
System.out.println(" , " + scoreDocs[i].score);
}
} catch (CorruptIndexException e)
{
e.printStackTrace();
} catch (LockObtainFailedException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
} catch (ParseException e)
{
e.printStackTrace();
} finally
{
if (ireader != null)
{
try
{
ireader.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
if (directory != null)
{
try
{
directory.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
}
}
}

输出：

2004年光棍节攻略 , 20041111 , 0.71185887

2005年光棍节攻略 , 20051111 , 0.71185887

2006年光棍节攻略 , 20061111 , 0.71185887

游戏攻略 , 20141111 , 0.049675122

可以看到文档是严格按照分数排序的，如果分数相同，则按照索引顺序排序，导致最新的文章反而排在最下面。

使用search接口的Sort参数优化搜索结果：

package com.hankcs.test;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;
import org.apache.lucene.queries.CustomScoreQuery;
import org.apache.lucene.queries.function.FunctionQuery;
import org.apache.lucene.queryparser.classic.ParseException;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
import java.io.IOException;
/**
* @author hankcs
*/
public class TestSortByTime
{
public static void main(String[] args)
{
// Lucene Document的主要域名
String fieldName = "text";
// 实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();
Directory directory = null;
IndexWriter iwriter;
IndexReader ireader = null;
IndexSearcher isearcher;
try
{
//索引过程**********************************
//建立内存索引对象
directory = new RAMDirectory();
//配置IndexWriterConfig
IndexWriterConfig iwConfig = new IndexWriterConfig(Version.LUCENE_46, analyzer);
iwConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
iwriter = new IndexWriter(directory, iwConfig);
//写入索引
for (int i = 0; i < 3; ++i)
{
int year = 2004 + i;
Document doc = new Document();
doc.add(new TextField(fieldName, year + "年光棍节攻略", Field.Store.YES));
doc.add(new IntField("date", year * 10000 + 1111, Field.Store.YES));
iwriter.addDocument(doc);
}
// 加入一个干扰文档
Document doc = new Document();
doc.add(new TextField(fieldName, "游戏攻略", Field.Store.YES));
doc.add(new IntField("date", 20141111, Field.Store.YES));
iwriter.addDocument(doc);
iwriter.close();
//搜索过程**********************************
//实例化搜索器
ireader = DirectoryReader.open(directory);
isearcher = new IndexSearcher(ireader);
String keyword = "光棍节攻略";
//使用QueryParser查询分析器构造Query对象
QueryParser qp = new QueryParser(Version.LUCENE_46, fieldName, analyzer);
Query query = qp.parse(keyword);
System.out.println("Query = " + query);
//搜索相似度最高的5条记录
Sort sort = new Sort(new SortField("text", SortField.Type.SCORE), new SortField("date", SortField.Type.INT, true));
TopDocs topDocs = isearcher.search(query, 5, sort);
System.out.println("命中：" + topDocs.totalHits);
//输出结果
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (int i = 0; i < Math.min(5, scoreDocs.length); i++)
{
Document targetDoc = isearcher.doc(scoreDocs[i].doc);
System.out.print(targetDoc.getField(fieldName).stringValue());
System.out.print(" , " + targetDoc.getField("date").numericValue());
System.out.println(" , " + scoreDocs[i].score);
}
} catch (CorruptIndexException e)
{
e.printStackTrace();
} catch (LockObtainFailedException e)
{
e.printStackTrace();
} catch (IOException e)
{
e.printStackTrace();
} catch (ParseException e)
{
e.printStackTrace();
} finally
{
if (ireader != null)
{
try
{
ireader.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
if (directory != null)
{
try
{
directory.close();
} catch (IOException e)
{
e.printStackTrace();
}
}
}
}
}

输出结果：

命中：4

2006年光棍节攻略 , 20061111 , NaN

2005年光棍节攻略 , 20051111 , NaN

2004年光棍节攻略 , 20041111 , NaN

游戏攻略 , 20141111 , NaN

我们看到“2006年光棍节攻略”因为时间比较新，并且相关性高，就排在了第一。“2005年光棍节攻略”相关度相同，因为时间旧就排在后面一点，而干扰文档“游戏攻略”即使时间最新，因为不相关的原因排在最后面。这种效果正好是我想要的，极大提升了用户体验。

Lucene 时间排序的更多相关文章

lucene之排序、设置权重、优化、分布式搜索(转)
lucene之排序.设置权重.优化.分布式搜索(转) 1. 基本应用 using System;using System.Collections.Generic;using System.Text;u ...
如何对sharepoint图片库的文件夹的图片按照时间排序并分页显示
/// <summary> /// 获取图片库第一层文件夹--根据文件夹名称排序 /// </summary> /// <param name="siteUrl ...
ls按时间排序输出文件列表
文件转自:http://www.2cto.com/os/201303/197829.html ls按时间排序输出文件列表首先,ls --help查看ls相关的与时间排序相关的参数: > ...
C#实现对指定文件夹中文件按修改时间排序
string path = "~/Document/Introduction/团队管理制度/"; DirectoryInfo dirinfo = new Di ...
PHP读取文件夹目录，按时间排序，大小排序，名字排序
工作中有时候会遇到文件存储数据,但是在前台显示的时候又因为没有数据库,无法使用上传或最后一次修改日期字段排序,所以有了如下代码: <?php $dir = "./";//目录 ...
lucene查询排序结果原理总结
参考文章 Lucene3.0结果排序原理+操作+示例 Lucene的排序算法一句话总结lucene排序算法是什么样的关键几个概念参考文档: http://lucene.apache.org/co ...
几种能在O(n*log(n))时间排序
线性时间排序各种排序算法总结已经介绍了几种能在O(n*log(n))时间内培训n个数的算法.归并排序和堆排序达到了最坏情况下的上界:快速排序在平均情况下达到该上界.这些算法都有一个有趣的性质:在 ...
linux_常用命令_(ls, lsof,nslookup)_查看文件按照时间排序
平时收集些用到的命令方便使用 1: ls -lrt 按时间排序展示 2:nslookup 查看dns解析 3:lsof -p 进程号 lsof `which httpd` //那个进程在使用 ...
Linux中ls对文件进行按大小排序和按时间排序,设置ls时间格式
1 按文件大小排序使用 ll -S | grep '^[^d]' // 格式化文件大小形式 ll -Sh | grep '^[^d]' 2 按文件修改时间排序显示使用 ll -rt 3 设置ls ...

随机推荐

让你的Mac支持NTFS
前段时间换成Mac电脑之后,发现有一点不爽,不能在Mac下写入NTFS格式的磁盘,所以就去研究了一下. 解决方法有如下三种. 第一种,直接使用第三方软件,如Paragon NTFS for MAC,T ...
6-tips-for-managing-property-files-with-spring--转
原文地址:http://www.summa.com/blog/2009/04/20/6-tips-for-managing-property-files-with-spring What could ...
1Z0-053 争议题目解析134
1Z0-053 争议题目解析134 考试科目:1Z0-053 题库版本:V13.02 题库中原题为: 134.You are managing an Oracle Database 11g datab ...
JS代码实现的聊天框
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
C#解决Linq OrderBy() 失效的小技巧
前言前几天的一个数据列表中我用了Linq GroupBy 和OrderBy. 排序在本机正常使用,发到测试后排序死活不对,很是郁闷,总以为是程序问题.于是请教了另外一个同事.有了以下的答案. 问题原 ...
魔方渗透系统安装VMtools教程
虚拟机魔方渗透系统安装VMtools教程 1.开机登陆后,如图点击安装VMtools. 2.进入media文件夹: cd /media 查看mdia文件夹内容: ls 3.打开VMware T ...
【UWP开发】一个简单的Toast实现
Toast简介在安卓里Toast是内置原生支持,它是Android中用来显示显示信息的一种机制.它主要用于向用户显示提示消息,没有焦点,显示的时间有限,过一定的时间就会自动消失.在UWP中虽然没有原 ...
在 .NET 中远程请求 https 内容时，发生错误：根据验证过程，远程证书无效。
当访问 https 内容的时候,有时候经常会看到证书错误(不在操作系统的证书信任链中?)的提示,在浏览器中我们可以忽略错误的证书,继续访问网页内容. 但是在 .NET 程序中,需要由代码来判断是否忽略 ...
第二篇：Entity Framework CodeFirst & Model 映射
前一篇第一篇:Entity Framework 简介我有讲到,ORM 最关键的 Mapping,也提到了最早实现Mapping的技术,就是特性 + 反射,那Entity Framework 实现 ...
C#不对称加密
对称加密的缺点是双方使用相同的密钥和IV进行加密.解密.由于接收方必须知道密钥和IV才能解密数据,因此发送方需要先将密钥和IV传递给接收方.这就有一个问题,如果攻击者截获了密钥和IV,也就等于知道了 ...

Lucene 时间排序

Lucene 时间排序的更多相关文章

随机推荐

热门专题