排序与相关性(Sorting and Relevance)
本文翻译自Elasticsearch官方指南的Sorting and Relevance一章的第一节。
原文地址:http://www.elastic.co/guide/en/elasticsearch/guide/current/_sorting.html
排序
ES默认是通过相关度来对结果进行排序的,最相关的文档在最前面。在本章里,我们阐述我们所说的相关性以及它是如何计算的,但是我们先讲解sort参数及其如何使用。
为了根据相关性进行排序,我们需要把相关性表示为一个值。在Elasticsearch里,在返回的查询结果中,我们用一个浮点数值_score来表示相关性得分,因此默认的排序是按_score降序。
有时候,不能得到一个有意义的相关性得分。比如,下面的查询只返回了字段user_id值为1的所有的tweets:
GET /_search
{
"query" : {
"filtered" : {
"filter" : {
"term" : {
"user_id" : 1
}
}
}
}
}过滤器与_score无关,并且不含任何条件的match_all查询对所有的文档的_score都设置为1。换句话说,所有的文档被认为是相等的相关性。按字段值排序
在这种情况下,可能按tweets的时间排序是有意义的,最近的tweets在最前面。我们可以使用sort参数做到这一点:
GET /_search
{
"query" : {
"filtered" : {
"filter" : { "term" : { "user_id" : 1 }}
}
},
"sort": { "date": { "order": "desc" }}
}在结果中,注意到两点:"hits" : {
"total" : 6,
"max_score" : null,"hits" : [ {
"_index" : "us",
"_type" : "tweet",
"_id" : "14",
"_score" : null,"_source" : {
"date": "2014-09-24",
...
},
"sort" : [ 1411516800000 ]},
...
}
_score没有被计算出来的,因为在排序中不被使用。
date字段的值,被表示为从时间纪元开始的毫秒数,在sort值里返回。
第一,每一个结果中都多了一个新的元素:sort,它包含我们用作排序的那个字段值。在这个例子中,我们按date排序,date是按着从纪元时间的毫秒数加入索引。这段长数字
1411516800000与日期字符串
2014-09-24 00:00:00UTC是等价的。
第二,字段_score与max_score都是null.计算_score很花费时间,况且通常它唯一的目的就是为了排序。我们不是按照相关性排序,所以跟踪_score是没有意义的。如果你仍然还想计算_score,你可以将track_scores参数设置为true.
TIP: 作为一个快捷方式,你可以指定要排序的字段名字:
"sort": "number_of_children"字段名默认按升序排序,_score默认按降序排序。多级排序
我们也许要结合_score与date进行查询,在展示所有匹配结果的时候,首先按照date排序,然后按相关度_score排序。
GET /_search
{
"query" : {
"filtered" : {
"query": { "match": { "tweet": "manage text search" }},
"filter" : { "term" : { "user_id" : 2 }}
}
},
"sort": [
{ "date": { "order": "desc" }},
{ "_score": { "order": "desc" }}
]
}
顺序是很重要的。结果首先按第一个标准排序。只有当结果的第一个sort 值相同时,然后再按第二个标准排序,等等。
多级排序不是必须含有_score字段。在脚本里,你可以使用几个不同的fields,geo-distance或者自定义值排序。
NOTE:Query-string 查询也支持在查询字符串里使用sort参数自定义排序:
GET /_search?sort=date:desc&sort=_score&q=search
多值字段排序
当排序字段有不止一个值时,请记住,这些值没有任何内部顺序;一个多值字段只是一袋值(译者注:所有值可以看做一个整体)。你选择哪个进行排序呢?对于数字与日期类型,你可以通过min,max,avg或者sum等排序模式,将一个多值字段减少为一个值。例如,你可以通过如下方式,在date字段值集合中的最早的那个日期进行排序:"sort": {
"dates": {
"order": "asc",
"mode": "min"
}
}
排序与相关性(Sorting and Relevance)的更多相关文章
- 拓扑排序(Topological Sorting)
一.什么是拓扑排序 在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Directed Acyclic Graph)的所有顶点的线性序列.且该序列必须满足下面两个 ...
- 拓扑排序 POJ 1049 Sorting It All Out
题目传送门 /* 拓扑排序裸题:有三种情况: 1. 输入时发现与之前的矛盾,Inconsistency 2. 拓扑排序后,没有n个点(先判断cnt,即使一些点没有边连通,也应该是n,此时错误是有环): ...
- 排序算法 (sorting algorithm)之 冒泡排序(bubble sort)
http://www.algolist.net/Algorithms/ https://docs.oracle.com/javase/tutorial/collections/algorithms/ ...
- 排序算法(sorting algorithm)之 插入排序(insertion sort)
https://en.wikipedia.org/wiki/Insertion_sort loop1: 4,6,1,3,7 -> 4,6,1,3,7 loop2: 4,6,1,3,7 -> ...
- 拓扑排序 POJ 1094 Sorting It All Out
题意:给定N个字和M行他们之间的关系,要求输出他们的拓扑排序.此题采用边输入边检测的方式,如果发现环,就结束并输出当前行号:如果读取到当前行时,可以确定拓扑序列就输出,不管后面的输入(可能包含环路): ...
- 拓扑排序 (Topological Sorting)
拓扑排序(Topological Sorting) 一.拓扑排序 含义 构造AOV网络全部顶点的拓扑有序序列的运算称为拓扑排序(Topological Sorting). 在图论中,拓扑排序(Topo ...
- [MIT6.006] 7. Counting Sort, Radix Sort, Lower Bounds for Sorting 基数排序,基数排序,排序下界
在前6节课讲的排序方法(冒泡排序,归并排序,选择排序,插入排序,快速排序,堆排序,二分搜索树排序和AVL排序)都是属于对比模型(Comparison Model).对比模型的特点如下: 所有输入ite ...
- 各种排序学习归纳总结(Java)
排序总结 根据<数据结构与算法分析——Java语言描述><INTRODUCTION TO JAVA PROGRAMMING>.维基及各技术博客知识点来总结的. 如果刚入门学习 ...
- 【Unity3D自学记录】可视化对照十多种排序算法(C#版)
在这篇文章中.我会向大家展示一些排序算法的可视化过程.我还写了一个工具.大家可对照查看某两种排序算法. 下载源代码 – 75.7 KB 下载演示样例 – 27.1 KB 引言 首先,我觉得是最重要的是 ...
随机推荐
- Linux内核设计第六周学习总结 分析Linux内核创建一个新进程的过程
陈巧然 原创作品转载请注明出处 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 一.实验过程 登陆实验楼 ...
- android 布局的两个属性 dither 和 tileMode
tileMode(平铺)tileMode(平铺) 的效果类似于 让背景小图不是拉伸而是多个重复(类似于将一张小图设置电脑桌面时的效果) dither(抖动) Dither(图像的抖动处理,当每个颜色值 ...
- Win10不能将文件夹固定到任务栏
Win10无法将文件夹锁定到任务栏的解决方法: 1.点开始——在运行里输入%APPDATA%\Microsoft\Windows\Recent\AutomaticDestinations,按回车键 ...
- JVM体系结构和工作方式
JVM能够跨计算机体系结构来执行Java字节码,主要是由于JVM屏蔽了与各个计算机平台相关的软件或者是硬件之间的差异,使得与平台相关的耦合统一由JVM提供者来实现. 何为JVM ...
- python---基础知识回顾(七)迭代器和生成器
前戏:迭代器和生成器 迭代: 如果给定一个list或tuple,我们可以通过for循环来遍历这个list或tuple,这种遍历我们称为迭代(Iteration). Python的for循环不仅可以用在 ...
- python---方法解析顺序MRO(Method Resolution Order)<以及解决类中super方法>
MRO了解: 对于支持继承的编程语言来说,其方法(属性)可能定义在当前类,也可能来自于基类,所以在方法调用时就需要对当前类和基类进行搜索以确定方法所在的位置.而搜索的顺序就是所谓的「方法解析顺序」(M ...
- printf与fprintf函数的区别
printf是标准输出流的输出函数,用来向屏幕这样的标准输出设备输出,而fprintf则是向文件输出,将输出的内容输出到硬盘上的文件或是相当于文件的设备上 printf是有缓冲的输出,fprintf没 ...
- 【官方文档】Nginx负载均衡学习笔记(三) TCP和UDP负载平衡官方参考文档
本章介绍如何使用NGINX Plus和NGINX开放源代理和负载平衡TCP和UDP流量. 目录 介绍 先决条件 配置反向代理 配置TCP或UDP负载平衡被动健康监控 选择负载平衡方法 配置会话持久性 ...
- 你知道吗?undefined 与 null 的区别
大多数计算机语言,有且仅有一个表示"无"的值,比如,C语言的NULL,Java语言的null,Python语言的none,Ruby语言的nil. 有点奇怪的是,JavaScript ...
- 20155236 2016-2017-2 《Java程序设计》第四周学习总结
20155236 2016-2017-2 <Java程序设计>第四周学习总结 教材学习内容总结 1.继承基本上就是避免多个类间重复定义共同行为. 继承的三个好处:减少代码冗余:维护变得简单 ...