在ES执行分布式搜索时,分布式搜索操作需要分散到所有相关分片,若一个索引有3个主分片,每个主分片有一个副本分片,那么搜索请求会在这6个分片中随机选择3个分片,这3个分片有可能是主分片也可能是副本分片,然后收集所有分片的查询结果。所以ES的搜索过程分为两个阶段,Query阶段和Fetch阶段;ES有两种搜索类型:query_then_fetch,dfs_query_then_fetch。

  1.Query阶段

  1)转发请求。在Query阶段客户端向ES节点发送,搜索请求,Coordinate节点接受客户端搜索请求,Coordinate节点负责解析搜索请求,并在索引的所有主副本分片中随机选择分片,并且发送给分片所在的数据节点。

  2)执行查询。接收到查询请求的数据节点执行查询操作,并对查询结果进行排序,每个节点都会根据请求中参数返回from+size个排序后的文档Id和排序值给Coordinate节点。

  2.Fetch阶段

  1)重排序。Coordinate节点收到数据节点返回的数据后,会按照返回的排序值对从所有分片取回的值重新进行排序,最终只选取客户端需要的from+size个文档的Id。

  2)获取文档数据。Coordinate节点根据选取的文档的Id,到相应的分片获取详细的文档数据,最终将查询到的结果返回给客户端。

查询结果解读:

{
"took":3, 查询所用的毫秒数
"timed_out":false, 是否有分片超时,即是否只返回了部分结果
"_shards":{
"total":1, 一共查询了多少分片
"successful":1, 多少分片成功返回
"skipped":0,跳过了多少分片
"failed":0  多少分片查询失败
},
"hits":{  
"total":{
"value":1, 该搜索请求中返回的所有匹配的数量
"relation":"eq" 文档与搜索值的关系,eq表示相等
},
"max_score":8.044733, 返回结果中文档的最大得分
"hits":[  查询结果的文档数组
{
"_index":"kibana_sample_data_ecommerce", 查询的索引
"_type":"_doc",  查询的类型
"_id":"4X-j7XEB-r_IFm6PISqV", 返回文档的主键
"_score":8.044733,  返回文档的评分
"_source":{ 文档的原始内容
"currency":"EUR",
"customer_first_name":"Eddie",
"customer_full_name":"Eddie Underwood",
"customer_gender":"MALE"
......
}
}
]
}
}

 Query Then Fetch潜在的问题

1.深度分页

  ES索引数据分布在多个分片上,在查询时,每个分片都要查询from+size个文档,Coordinate节点会聚合所有的结果,所以Coordinate节点要处理查询分片数*(from+size)个文档记录,对这些记录进行重新排序,需要的size个文档,from+size的值越大占用内存越多,称为深度分页问题,ES默认限制分页的深度不能超过10000条,可通过max_result_window设置。

  深度分页解决办法:

  1)Search After

  可以使用Search After避免深度分页的性能问题,实时获取下一页的文档信息,search_after根据上一页最后一个文档的sort值来查询下一页,并且当索引数据有变化时,也可以同步被查到,是一个实时查询的方法。

  例:http://127.0.0.1:9200/kibana_sample_data_ecommerce/_search

    查询参数:在使用Search_After查询时,第一步查询时需要指定sort字段,并且该sort字段的排序结果是唯一的,建议使用_id来进行sort,可以指定多个sort字段。

{
"size": 1,
"query": {
"match": {
"currency": "EUR"
}
},
"sort": [
{
"order_id": {
"order": "asc"
}
}
]
}

   返回中可以看到第一页查询返回的sort值,查询下一页时使用该sort值进行文档的定位,而后每个查询都会返回一个sort值,供下一页进行定位使用。

"sort": [
"550375"
]

  下一页查询:

{
"size": 1,
"query": {
"match": {
"currency": "EUR"
}
},
"search_after": [
550375
],
"sort": [
{
"order_id": {
"order": "asc"
}
}
]
}

  Search_After存在的限制:

    a.不能指定from值,即不能想翻到哪一页就直接跳转到那一页,只能一页一页按照顺序翻;

    b.只能往后翻页,不能往前翻页。

  2)Scroll API

  scroll api可以用于从单个搜索请求中检索大量的结果,其原理是建立索引在某个时间点的快照,当快照建立后,之后的每次搜索都会在该快照上进行,对索引的所有新增操作都会被忽略,索引Scroll适合于处理大量数据,但是不能保证数据的实时性。

  POST http://127.0.0.1:9200/kibana_sample_data_ecommerce/_search?scroll=1m

  首次查询时指定scroll=5m,表示当前搜索过期时间为5分钟,即查询结果在搜到下一次请求之前会保存多次时间,scroll的值不需要长到把整个快照的数据都处理完,只需保证下一次搜索请求到来之前能处理完前一批查询结果即可。

{
"size": 2,
"query": {
"match" : {
"currency" : "EUR"
}
}
}

  返回中可以看到_scroll_id,total.value,scroll_id用于获取下一批的查询结果,total.value表示该查询有总共多少个结果。

{
  "_scroll_id":"DXF1ZXJ5QW5kRmV0Y2gBAAAAAAABAGUWdks0dUtFMHZTYmE1Rl9ucGp5X0hoUQ==",
  "took": 1,
"timed_out": false,
"_shards": {
"total": 1,
"successful": 1,
"skipped": 0,
"failed": 0
},
"hits": {
"total": {
"value": 4675,
"relation": "eq"
},
}
}

  下一页:

  http://127.0.0.1:9200/_search/scroll

  下一页查询的时候不用指定索引和查询参数,只需要指定scroll时间和上一次请求返回的scroll_id,因为快照已经建好,只需要在快照上往下翻页即可。每次执行该请求都会往下进行翻页,直到查询的结果为空。

{
"scroll":"5m",
"scroll_id":"DXF1ZXJ5QW5kRmV0Y2gBAAAAAAABAGUWdks0dUtFMHZTYmE1Rl9ucGp5X0hoUQ=="
}

  Scroll API存在的限制:当快照建立后,对索引有新的操作时,无法被查询到,所以不适合做实时查询。

不同查询的使用场景

  一般查询:需要获取顶部的部分文档,查询索引最新的数据。

  全量查询:使用scroll,当需要导出全部数据,且对数据的实时性要求不高时。

  分页查询:使用from+size,当from+size过大时,使用search after。

2.相关度评分不准问题

  当搜索请求在多个shard进行数据查找时,每个分片都会基于自己分片上的文档数据进行相关度的计算,计算方法为TD/IDF,

  TF:词频,表示词条在一个文档中出现的频率;IDF:逆文档频率,log(全本文档数/词条在所有文档中出现的次数),表示该term在所有文档中出现的频率;如果查询词条在某一个文档中出现的频率(即TF)高,在全部文档中出现的频率低(即IDF)低,则表明该文档的相关性高。

  每个分片计算IDF的时候只会基于自己分片上的数据进行计算,并不会包含其他分片上的数据,所以这样会导致相关性评分不准的情况;特别在文档总数很少情况下,主分片数越多,相关性算分会越不准。

  解决相关度评分不准问题的方法:

  1)合理设置分片数量,保证数据均匀分布。

   当数据量不大时,可以考虑仅设置一个主分数;当数据量较大时,保证文档均匀的分布在各个分片上。ES提供了routing_partition_size参数,routing_partition_size越大,数据的分布越均匀(【Elasticsearch学习】之一图读懂文档索引全过程 中有提及)。

  2)使用dfs_query_then_fetch

  在搜索时,指定搜索的类型search_type=dfs_query_the_fetch,在搜索的时候,每个分片会把每个分片的TF和IDF进行搜集,然后综合所有的数据进行一次完整的相关性评分计算,但是一般不推荐,因为这样会耗费较多的CPU和内存。

 

【Elasticsearch学习】文档搜索全过程的更多相关文章

  1. ElasticSearch学习文档2018.11

    1       Elasticsearch安装 1.1    ES6.0版本安装head插件 1.1 下载head插件 下载地址:https://github.com/mobz/elasticsear ...

  2. ElasticSearch(2)-文档

    上一篇 ES(1) 官网原地址:https://www.elastic.co/guide/en/elasticsearch/reference/1.7/_cluster_health.html ES权 ...

  3. elasticsearch 路由文档到分片

    路由文档到分片 当你索引一个文档,它被存储在单独一个主分片上.Elasticsearch是如何知道文档属于哪个分片的呢?当你创建一个新文档,它是如何知道是应该存储在分片1还是分片2上的呢? 进程不能是 ...

  4. Ext JS 6学习文档-第5章-表格组件(grid)

    Ext JS 6学习文档-第5章-表格组件(grid) 使用 Grid 本章将探索 Ext JS 的高级组件 grid .还将使用它帮助读者建立一个功能齐全的公司目录.本章介绍下列几点主题: 基本的 ...

  5. ElasticSearch——原始文档和倒排索引

    一.原始文档 如上图所示, 第二象限是一份原始文档,有title和content2个字段,字段取值分别为”我是中国人”和” 热爱共X产党”,这一点没什么可解释的.我们把原始文档写入Elasticsea ...

  6. 007-elasticsearch5.4.3【一】概述、Elasticsearch 访问方式、Elasticsearch 面向文档、常用概念

    一.概述 Elasticsearch 是一个开源的搜索引擎,建立在一个全文搜索引擎库 Apache Lucene™ 基础之上. Elasticsearch 也是使用 Java 编写的,它的内部使用 L ...

  7. Elasticsearch 删除文档

    章节 Elasticsearch 基本概念 Elasticsearch 安装 Elasticsearch 使用集群 Elasticsearch 健康检查 Elasticsearch 列出索引 Elas ...

  8. Elasticsearch 更新文档

    章节 Elasticsearch 基本概念 Elasticsearch 安装 Elasticsearch 使用集群 Elasticsearch 健康检查 Elasticsearch 列出索引 Elas ...

  9. .Net Api 之如何使用Elasticsearch存储文档

    .Net Api 之如何使用Elasticsearch存储文档 什么是Elasticsearch? Elasticsearch 是一个分布式.高扩展.高实时的搜索与数据分析引擎.它能很方便的使大量数据 ...

随机推荐

  1. 用python为喜欢的人写一个程序,每天发送贴心的消息

    消息内容 包括如下: 日期(阳历+阴历): 每日壹句(内容来自爱词霸[1]): 天气预报(内容来自中国天气网[2]): 天气情况: 温度情况: 穿衣指数: 减肥指数: 空气指数: 紫外线指数: 消息效 ...

  2. 爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)

    前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:一棵程序树 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  3. 在学习java之余,js的使用精髓-闭包和原型链

    这里分享下廖雪峰官网写的js教程,内容写的比较实用,易懂,其中简介的原型链和闭包的知识,小伙伴们一起上呀,畅游在知识的海洋中: 地址:https://www.liaoxuefeng.com/wiki/ ...

  4. wechall前十题

    今天开始打一打wechall 累了打wechall,不累的时候开始打buu 第一题:Get Sourced 查看源代码即可,拉到底部 第二题:Stegano 属于misc的范畴,直接下载下来,然后no ...

  5. 关于go的init函数

    亲测,如果加载一个包,如果一个包里的每个文件,均含有init函数,那么均会执行. 目前来看,init的执行顺序,是文件名称的自然排序进行执行的. 并且只是所加载包里的go文件的init函数执行,对于包 ...

  6. async,await与task.wait()或task.Result的区别

    你是否曾经与我一样不理解async,await与task.wait()或者task.Result的区别? 接下来,一个Demo让你看出他们之间的区别. static void Main(string[ ...

  7. Python 基础教程(第二版)笔记 (2) 字典

    P59 字典方法 1. clear 2. copy, deepcopy 3. fromkeys 4. get 比下标安全 5. has_key 6. items, iteritems 7. keys, ...

  8. hdu_2124 Flying to the Mars & hdu_1800 Repair the Wall 贪心水题

    hdu_1800 简单排一下序,从大开始把比他小的都访问一遍,ans++: #include <iostream> #include <stdio.h> #include &l ...

  9. 【集群实战】inotify

    1. inotify简介 Inotify是一种强大的,细粒度的,异步的文件系统事件监控机制(软件). linux内核从2.6.13起,加入了Inotify支持,通过Inotify可以监控文件系统中添加 ...

  10. Omnicore RPC API中文文档

    2019独角兽企业重金招聘Python工程师标准>>> OmniCore是比特币核心的一个分支,它在比特币协议之上实现了一个新的Omni协议层,用于代币发行.众售等应用,USDT就是 ...