Elasticsearch调研深度查询

1.from/size 浅分页查询

一般的分页需求我们可以使用from和size的方式实现，但是这种的分页方式在深分页的场景下应该是避免使用的。深分页的页次增加，所消耗的内存和时间的增长也是成比例的增加，为了避免深度分页产生的问题，Elasticsearch从2.0版本楷书，增加了一个限制:

	index.max_result_window = 10000

		# elasticsearch的一种保护机制，限制1w条数据，但是可以修改最大限根据实际需求，不过最好不要修改会影响性能。

2.深分页 scroll

# 引入scroll

from/size查询查询在10000-50000条数据(1000到5000页)以内的时候还是可以的，但是如何数据量过多的话，就会出现深分页的问题

# 为了解决以上问题，elasticsearch提出了一个scroll滚动的方式。

scroll使用

1.scroll的原理是讲索引数据备份，每次记住最后一次查询的位置，下一次从最后一次位置开始查询。

2.使用scroll，通过size的查询最大限制，scroll返回一个代表最后一个size查询的位置scroll_id可以不断的获取下一页的内容。

1.第一次查询带scroll参数

GET dlp-prd-rabbitmq-tagfile-*/_search?scroll=10m

{

  "query": {

    "match_all": {}

  },

"sort": [{"stime": {"order": "desc"}}],

"from": 0,

"size": 10000

}

1.scroll=5m表示设置scroll_id保留5分钟可用。

2.使用scroll必须要将from设置为0。

3.size决定后面每次调用_search搜索返回的数量

2.查询结果会返回scroll_id，第二次查询会带上scroll_id，就能从上一次查询的末尾开始查询了。

1.然后我们可以通过数据返回的_scroll_id读取下一页内容，每次请求将会读取下10000条数据，直到数据读取完毕或者scroll_id保留时间截止

2.请求的接口不再使用索引名了，而是 _search/scroll，其中GET和POST方法都可以使用。

GET /_search/scroll

{

"scroll_id": "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAC7EWa1U5THR6U0xSSXVOZjJTaUhpeHY2dw==",

"scroll": "10m"

}

3.scroll删除scroll在es的上下文中的数据

1.根据官方文档的说法，scroll的搜索上下文会在scroll的保留时间截止后自动清除，但是我们知道scroll是非常消耗资源的，所以一个建议就是当不需要了scroll数据的时候，尽可能快的把scroll_id显式删除掉，而且会生成历史快照，对于数据的变更不会反映到快照上。

DELETE /_search/scroll/DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAC7EWa1U5THR6U0xSSXVOZjJTaUhpeHY2dw==

4.scroll的使用场景(使用场景：数据导出)

1.可以看出scroll不适合支持那种实时的和用户交互的前端分页工作，其主要用途用于从ES集群分批拉取大量结果集的情况，一般都是offline的应用场景。 比如需要将非常大的结果集拉取出来，存放到其他系统处理，或者需要做大索引的reindex等等。

3.深分页search_after

建议使用Scroll api进行高效深度滚动，但滚动上下文代价很高，建议不要将其用于实时用户请求。该search_after参数通过提供实时游标来解决此问题。

search_after使用

1.search_after是ES5.0及之后版本提供的新特性，search_after有点类似scroll，但是和scroll又不一样，它提供一个活动的游标，通过上次查询的最后一条数据来进行下一次查询。

2.search_after分页的方式是根据上一页的最后一条数据来确定下一页的位置，同时在分页请求的过程中，如果有索引数据的增删改查，这些变更也会实时的反映到游标上。

3.但是需要注意，因为每一页的数据都是依赖于上一页最后一条数据，所以无法跳页请求。

1.search after 不能指定页数，只能一页挨一页问下查。第一次查询时带上sort，返回最后一个文档的id字段

1.每个文档具有一个唯一值的字段应该用作排序规范的仲裁器。否则，具有相同排序值的文档的排序顺序将是未定义的。建议的方法是使用字段_id，它肯定包含每个文档的一个唯一值。

2.为了找到每一页最后一条数据，每个文档必须有一个全局唯一值，官方推荐使用 _uid 作为全局唯一值，其实使用业务层的 id 也可以。

GET dlp-prd-rabbitmq-tagfile-*/_search

{

  "query": {

    "match_all": {}

  },

"sort": [

  {"stime": {"order": "desc"}},

  {"_id": {"order": "desc"}}

],

"from": 0,

"size": 10000

}

# 为了根据最后一条数据的唯一标识来查询1w后面的数据

	1.可以使用id的唯一标识，或者id加stime时间，来查询1w的后面数据。

    2.当前我们search_after使用的唯一标识有id和stime，那么sort排序就必须加入stime和id排序不然会报错。

2.下一次查询带上search after参数

1.上面的请求会为每一个文档返回一个包含sort排序值的数组。这些sort排序值可以被用于 search_after 参数里以便抓取下一页的数据。比如，我们可以使用最后的一个文档的sort排序值，将它传递给 search_after 参数：

GET dlp-prd-rabbitmq-tagfile-*/_search

{

  "query": {

    "match_all": {}

  },

"sort": [

  {"stime": {"order": "desc"}},

  {"_id": {"order": "desc"}}

],

"search_after": ["2022-09-25T12:38:42.142Z", "pxOodIMBf53JeIypLfhE"],

"from": 0,

"size": 10000

}

使用search_after必须要设置from=0。

这里我使用timestamp和_id作为唯一值排序。

我们在返回的最后一条数据里拿到sort属性的值传入到search_after。

3.删除和特性

1.search_after不是自由跳转到随机页面而是并行滚动多个查询的解决方案。它与滚动API非常相似，但与它不同，search_after参数是无状态的，它始终针对最新版本的搜索器进行解析。因此，排序顺序可能会在步行期间发生变化，具体取决于索引的更新和删除。

4.search_after应用场景

1.不支持跳页查询

# 另外在ES6.5的文档中有这样一句话需要注意一下：

2.另外，search_after并不是随机的查询某一页数据，而是并行的滚屏查询；search_after的查询顺序会在更新和删除时发生变化，也就是说支持实时的数据查询

3.大致的意思就是，如果search_after中的关键字为654，那么654323的文档也会被搜索到，所以在选择search_after的排序字段时需要谨慎，可以使用比如文档的id或者时间戳等

Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景的更多相关文章

QBC查询、离线条件查询（DetachedCriteric）和分页查询模版
一.QBC检索步骤 QBC检索步骤: 1.调用Session的createCriteria()方法创建一个Criteria对象. 2.设定查询条件.Expression类提供了一系列用于设定查询条件的 ...
【spring boot】14.spring boot集成mybatis,注解方式OR映射文件方式AND pagehelper分页插件【Mybatis】pagehelper分页插件分页查询无效解决方法
spring boot集成mybatis,集成使用mybatis拖沓了好久,今天终于可以补起来了. 本篇源码中,同时使用了Spring data JPA 和 Mybatis两种方式. 在使用的过程中一 ...
【mysql】 mybatis实现主从表 left join 1:n 一对多分页查询主表从表都有查询条件【mybatis】count 统计+JSON查询
mybatis实现主从表 left join 1:n 一对多分页查询主表从表都有查询条件+count 需求: ======================================= ...
sql查询语句如何解析成分页查询？
我们公司主要mysql存储数据,因此也封装了比较好用mysql通用方法,然后,我们做大量接口,在处理分页查询接口,没有很好分查询方法.sql查询语句如何解析成“分页查询”和“总统计”两条语句.可能, ...
MVC中，查询以异步呈现，分页不用异步的解决方案
MVC中,查询以异步呈现,分页不用异步的解决方案这种需求,用一个ASPX页面和一个ASCX分部视图就可以解决了,ASPX提供对ASCX的引用,ASCX显示列表信息,ASPX主页面提供查询功能 < ...
sql中对查询出来的数据进行分页
当sql中存储的数据量比较大时,在web中数据显示时都会对数据进行分页,分页不会在客户端进行分页,而是在数据库查询过程中进行了分页. sql代码: DECLARE @pageindex INT; - ...
yii下多条件多表组合查询以及自写ajax分页
多条件组合查询主要用到yii的CDbCriteria,这个类很多oem框架都有,非常好用. 前台表单前台查询表单效果是这样的,多个条件组,每个组里放多个input,name为数组.当任何一个复选框被 ...
ORACLE分页查询SQL语法——高效的分页
--1:无ORDER BY排序的写法.(效率最高)--(经过测试,此方法成本最低,只嵌套一层,速度最快!即使查询的数据量再大,也几乎不受影响,速度依然!) SELECT * FROM (SELECT ...
Hibernate的批量查询——Criteria查询所有、条件、分页、统计（聚合函数）、排序
1.查询所有的学生信息: public static void testSel() { Session session = HibernateUtils.openSession(); Transact ...

随机推荐

30行自己写并发工具类(Semaphore, CyclicBarrier, CountDownLatch)是什么体验？
30行自己写并发工具类(Semaphore, CyclicBarrier, CountDownLatch)是什么体验? 前言在本篇文章当中首先给大家介绍三个工具Semaphore, CyclicBa ...
ROS机械臂 Movelt 学习笔记3 | kinect360相机(v1)相关配置
目标是做一个机械臂视觉抓取的demo,在基地里翻箱倒柜,没有找到学长所说的 d435,倒是找到了一个老古董 kinect 360. 前几天就已经在旧电脑上配置好了,现在记录在新电脑上的配置过程. 1. ...
如何创建一个带诊断工具的.NET镜像
现阶段的问题现在是云原生和容器化时代,.NET Core对于云原生来说有非常好的兼容和亲和性,dotnet社区以及微软为.NET Core提供了非常方便的镜像容器化方案.所以现在大多数的dotnet ...
C# 虚方法、抽象方法
一.虚方法(virtual) 作用:当有一个定义在类中的函数需要在继承类中实现时,可以使用虚方法. 示例: class Person { public virtual void XXX() { Con ...
java日常开发必备：list的四种遍历
在平时的开发过程中使用List的场景很多,你知道List的遍历有多少种方式?今天一起来梳理下List的几种遍历方式.这里以java.util.ArrayList为例来演示. 这里有一个最简单的 ...
5.30 NOI 模拟
$5.30\ NOI $模拟高三大哥最后一次模拟考了,祝他们好运 $T1$装箱游戏显然可以将四种字母之间的空缺当做状态枚举那么这道题就很显然了 #include<bits/stdc++ ...
五，手写SpringMVC框架，过滤器的使用
8. 过滤器 8.1 编写字符过滤器 CharacterEncodingFilter 复制项目mymvc4,新建项目mymvc5 package com.hy.filter; import java. ...
Java 断点下载(下载续传)服务端及客户端（Android）代码
原文: Java 断点下载(下载续传)服务端及客户端(Android)代码 - Stars-One的杂货小窝最近在研究断点下载(下载续传)的功能,此功能需要服务端和客户端进行对接编写,本篇也是记录一 ...
[RootersCTF2019]I_<3_Flask-1|SSTI注入
1.打开之后很明显的提示flask框架,但是未提供参数,在源代码中发现了一个git地址,打开之后也是没有啥用,结果如下: 2.这里我们首先需要爆破出来参数进行信息的传递,就需要使用Arjun这一款工具 ...
KubeEdge：下一代云原生边缘设备管理标准DMI的设计与实现
摘要:KubeEdge设备管理架构的设计实现,有效帮助用户处理设备数字孪生进程中遇到的场景. 本文分享自华为云社区<KubeEdge:下一代云原生边缘设备管理标准DMI的设计与实现>. 随 ...

Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景

Elasticsearch调研深度查询

1.from/size 浅分页查询

2.深分页 scroll

scroll使用

1.第一次查询带scroll参数

2.查询结果会返回scroll_id，第二次查询会带上scroll_id，就能从上一次查询的末尾开始查询了。

3.scroll删除scroll在es的上下文中的数据

4.scroll的使用场景(使用场景：数据导出)

3.深分页search_after

search_after使用

1.search after 不能指定页数，只能一页挨一页问下查。第一次查询时带上sort，返回最后一个文档的id字段

2.下一次查询带上search after参数

3.删除和特性

4.search_after应用场景

Elasticsearch from/size-浅分页查询-深分页 scroll-深分页search_after深度查询区别使用及应用场景的更多相关文章

随机推荐

热门专题