es搜索排序不正确

沿用该文章里的数据https://www.cnblogs.com/MRLL/p/12691763.html

查询时发现,一模一样的name,但是相关度不一样

GET /z_test/doc/_search

{

  "explain": false,

  "query": {

    "match_phrase": {

      "name": "测试"

    }

  }

}

结果

{

  "took" : ,

  "timed_out" : false,

  "_shards" : {

    "total" : ,

    "successful" : ,

    "skipped" : ,

    "failed" :

  },

  "hits" : {

    "total" : ,

    "max_score" : 0.5753642,

    "hits" : [

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "D4eQcnEBf_xjEc-wO9P0",

        "_score" : 0.5753642,

        "_source" : {

          "name" : "测试123"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "2oeLcnEBf_xjEc-wFNK2",

        "_score" : 0.5753642,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "_analyze",

        "_score" : 0.45840853,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "qHeKcnEBvg5mZsCPxwX1",

        "_score" : 0.3672113,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "AVSTcnEBjEFwhOIJHS0S",

        "_score" : 0.33573607,

        "_source" : {

          "name" : "测试1"

        }

      }

    ]

  }

}

查询文档后得知,在相关度分值的计算中有个属性为逆向文档频率,意思为该搜索字段在整个索引的文档里出现的频率,出现的越多所占分值权重越低

参照该文章https://blog.csdn.net/paditang/article/details/79098830

解决办法为用以下查询

GET /z_test/doc/_search?search_type=dfs_query_then_fetch

{

  "explain": false,

  "query": {

    "match": {

     "name": {"query": "测试"}

    }

  }

}

dfs_query_then_fetch意为使用全局的文档信息打分

默认查询参数为query then fetch

发送查询到每个shard
找到所有匹配的文档，并使用本地的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

dfs_query_then_fetch

预查询每个shard，询问Term和Document frequency
发送查询到每隔shard
找到所有匹配的文档，并使用全局的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

延伸:

词频:查询字段出现的越多分数越高,如果不在意词在某个字段中出现的频次，而只在意是否出现过，则可以在字段映射中禁用词频统计：

PUT /my_index

{

    "mappings": {

        "doc": {

            "properties": {

                "name": {

                    "type": "string",

                    "index_options": "docs"

                }

            }

        }

    }

}

es搜索排序不正确的更多相关文章

ES搜索排序，文档相关度评分介绍——Vector Space Model
Vector Space Model The vector space model provides a way of comparing a multiterm query against a do ...
ES搜索排序，文档相关度评分介绍——TF-IDF—term frequency, inverse document frequency, and field-length norm—are calculated and stored at index time.
Theory Behind Relevance Scoring Lucene (and thus Elasticsearch) uses the Boolean model to find match ...
ES搜索排序，文档相关度评分介绍——Field-length norm
Field-length norm How long is the field? The shorter the field, the higher the weight. If a term app ...
YII关联字段并带搜索排序功能
1.简介从接触yii框架到现在已经快有两个月了,但是自己对yii框架的了解程度并不是很深,并没有系统地去学习,仅仅只是在做项目的时候遇到不懂得知识才去翻手册. 在上一个项目中因为需要将关联的表的字段 ...
搜索实时个性化模型——基于FTRL和个性化推荐的搜索排序优化
本文来自网易云社区作者:穆学锋简介:传统的搜索个性化做法是定义个性化的标签,将用户和商品通过个性化标签关联起来,在搜索时进行匹配.传统做法的用户特征基本是离线计算获得,不够实时:个性化标签虽然具有 ...
【python】Leetcode每日一题-搜索排序数组2
[python]Leetcode每日一题-搜索排序数组2 [题目描述] 已知存在一个按非降序排列的整数数组 nums ,数组中的值不必互不相同. 在传递给函数之前,nums 在预先未知的某个下标 k( ...
从零搭建 ES 搜索服务（六）相关性排序优化
一.前言上篇介绍了搜索结果高亮的实现方法,本篇主要介绍搜索结果相关性排序优化. 二.相关概念 2.1 排序默认情况下,返回结果是按照「相关性」进行排序的--最相关的文档排在最前. 2.1.1 相关 ...
es定制排序搜索结果
GET /company/employee/_search { "query": { "constant_score": { "filter" ...
ES 搜索结果expalain 可以类似数据库性能调优来看排序算法的选择
When we run a simple term query with explain set to true (see Understanding the Score), you will see ...

随机推荐

kafka启动报错"A broker is already registered on the path /brokers/ids/1"解决方案
问题 kafka挂掉后,启动报错日志如下 [2020-03-19 17:50:58,123] FATAL Fatal error during KafkaServerStartable startup ...
Jupyter NoteBook 系列之安装启动和常用设置
介绍 Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,目前支持运行 40 多种编程语言. Jupyter Notebook 的本质是一个 Web 应 ...
理解Golang组件protobuf
什么是protobuf protocol buffers 是一种语言无关.平台无关.可扩展的序列化结构数据的方法,它可用于(数据)通信协议.数据存储等.是一种灵活,高效,自动化机制的结构数据序列化方法 ...
关于git 远程仓库账户密码错误的问题
主要是电脑凭证把第一次输入的账户密码记录了下来,在控制面板->用户账户->凭据管理器里, 选择windows凭证, 你会找到git:凭据,直接删掉或者更改都可以! 对应的Git的凭证,删除 ...
WSL下卸载了zsh / fish后无法启动bash解决方案
最近在鼓捣wsl,感觉自己用还是蛮好用的.听说1903要更新新的cmd,还蛮期待的解决步骤: 建议先下载个everything , windows下非常好用的文件查找软件. 启动后搜索.bashrc ...
vnpy源码阅读学习(7)：串在一起
串在一起我们已经分析了UI.MainEngine.EventEngine.然后他们几个是如何发挥作用的呢?我总结了一张图: 我们来具体的看看UI部分是如何跟EventEngine穿插起来的 \exa ...
Linux基本操作 ------ 文件处理命令
显示目录文件 ls //显示当前目录下文件 ls /home //显示home文件夹下文件 ls -a //显示当前目录下所有文件,包括隐藏文件 ls -l //显示当前目录下文件的详细信息 ls - ...
In Triangle Test / To Left Test
2020-01-09 14:51:29 如何高效的判断一个点是否是包含在一个三角形的内部是计算几何里的一个基础问题. In Triangle Test问题也可以用来解决计算几何里的一个基础问题就是凸 ...
Inception V1-V4
2019-05-29 20:56:02 一.Inception V1 当不知道在卷积神经网络中该使用1 * 1卷积还是3 * 3的卷积还是5 * 5的卷积或者是否需要进行pooling操作的时候,我们 ...
Spring Cloud 系列之 Netflix Zuul 服务网关
什么是 Zuul Zuul 是从设备和网站到应用程序后端的所有请求的前门.作为边缘服务应用程序,Zuul 旨在实现动态路由,监视,弹性和安全性.Zuul 包含了对请求的路由和过滤两个最主要的功能. Z ...

es搜索排序不正确

es搜索排序不正确的更多相关文章

随机推荐

热门专题