Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索

多数字段编辑

全文搜索被称作是 召回率（Recall） 与 精确率（Precision） 的战场： 召回率 ——返回所有的相关文档；精确率 ——不返回无关文档。目的是在结果的第一页中为用户呈现最为相关的文档。

为了提高召回率的效果，我们扩大搜索范围 ——不仅返回与用户搜索词精确匹配的文档，还会返回我们认为与查询相关的所有文档。如果一个用户搜索 “quick brown box” ，一个包含词语 fast foxes 的文档被认为是非常合理的返回结果。

如果包含词语 fast foxes 的文档是能找到的唯一相关文档，那么它会出现在结果列表的最上面，但是，如果有 100 个文档都出现了词语 quick brown fox ，那么这个包含词语 fast foxes 的文档当然会被认为是次相关的，它可能处于返回结果列表更下面的某个地方。当包含了很多潜在匹配之后，我们需要将最匹配的几个置于结果列表的顶部。

提高全文相关性精度的常用方式是为同一文本建立多种方式的索引，每种方式都提供了一个不同的相关度信号 signal 。主字段会以尽可能多的形式的去匹配尽可能多的文档。举个例子，我们可以进行以下操作：

使用词干提取来索引 jumps 、 jumping 和 jumped 样的词，将 jump 作为它们的词根形式。这样即使用户搜索 jumped ，也还是能找到包含 jumping 的匹配的文档。
将同义词包括其中，如 jump 、 leap 和 hop 。
移除变音或口音词：如 ésta 、 está 和 esta 都会以无变音形式 esta 来索引。

尽管如此，如果我们有两个文档，其中一个包含词 jumped ，另一个包含词 jumping ，用户很可能期望前者能排的更高，因为它正好与输入的搜索条件一致。

为了达到目的，我们可以将相同的文本索引到其他字段从而提供更为精确的匹配。一个字段可能是为词干未提取过的版本，另一个字段可能是变音过的原始词，第三个可能使用 shingles 提供词语相似性信息。这些附加的字段可以看成提高每个文档的相关度评分的信号 signals ，能匹配字段的越多越好。

一个文档如果与广度匹配的主字段相匹配，那么它会出现在结果列表中。如果文档同时又与 signal 信号字段匹配，那么它会获得额外加分，系统会提升它在结果列表中的位置。

我们会在本书稍后对同义词、词相似性、部分匹配以及其他潜在的信号进行讨论，但这里只使用词干已提取（stemmed）和未提取（unstemmed）的字段作为简单例子来说明这种技术。

多字段映射编辑

首先要做的事情就是对我们的字段索引两次：一次使用词干模式以及一次非词干模式。为了做到这点，采用 multifields 来实现，已经在 multifields 有所介绍：

DELETE /my_index

PUT /my_index

{

    "settings": { "number_of_shards": 1 },

    "mappings": {

        "my_type": {

            "properties": {

                "title": {

                    "type":     "string",

                    "analyzer": "english",

                    "fields": {

                        "std":   {

                            "type":     "string",

                            "analyzer": "standard"

                        }

                    }

                }

            }

        }

    }

}

拷贝为 CURL 在 SENSE 中查看

	参考被破坏的相关度.
	`title` 字段使用 `english` 英语分析器来提取词干。
	`title.std` 字段使用 `standard` 标准分析器，所以没有词干提取。

接着索引一些文档：

PUT /my_index/my_type/1

{ "title": "My rabbit jumps" }

PUT /my_index/my_type/2

{ "title": "Jumping jack rabbits" }

拷贝为 CURL 在 SENSE 中查看

这里用一个简单 match 查询 title 标题字段是否包含 jumping rabbits （跳跃的兔子）：

GET /my_index/_search

{

   "query": {

        "match": {

            "title": "jumping rabbits"

        }

    }

}

拷贝为 CURL 在 SENSE 中查看

因为有了 english 分析器，这个查询是在查找以 jump 和 rabbit 这两个被提取词的文档。两个文档的 title 字段都同时包括这两个词，所以两个文档得到的评分也相同：

{

  "hits": [

     {

        "_id": "1",

        "_score": 0.42039964,

        "_source": {

           "title": "My rabbit jumps"

        }

     },

     {

        "_id": "2",

        "_score": 0.42039964,

        "_source": {

           "title": "Jumping jack rabbits"

        }

     }

  ]

}

如果只是查询 title.std 字段，那么只有文档 2 是匹配的。尽管如此，如果同时查询两个字段，然后使用 bool 查询将评分结果合并，那么两个文档都是匹配的（ title 字段的作用），而且文档 2 的相关度评分更高（ title.std 字段的作用）：

GET /my_index/_search

{

   "query": {

        "multi_match": {

            "query":  "jumping rabbits",

            "type":   "most_fields",

            "fields": [ "title", "title.std" ]

        }

    }

}

拷贝为 CURL 在 SENSE 中查看

我们希望将所有匹配字段的评分合并起来，所以使用 most_fields 类型。这让 multi_match 查询用 bool 查询将两个字段语句包在里面，而不是使用 dis_max 查询。

{

  "hits": [

     {

        "_id": "2",

        "_score": 0.8226396,

        "_source": {

           "title": "Jumping jack rabbits"

        }

     },

     {

        "_id": "1",

        "_score": 0.10741998,

        "_source": {

           "title": "My rabbit jumps"

        }

     }

  ]

}

文档 2 现在的评分要比文档 1 高。

用广度匹配字段 title 包括尽可能多的文档——以提升召回率——同时又使用字段 title.std 作为信号将相关度更高的文档置于结果顶部。

每个字段对于最终评分的贡献可以通过自定义值 boost 来控制。比如，使 title 字段更为重要，这样同时也降低了其他信号字段的作用：

GET /my_index/_search

{

   "query": {

        "multi_match": {

            "query":       "jumping rabbits",

            "type":        "most_fields",

            "fields":      [ "title^10", "title.std" ]

拷贝为 CURL 在 SENSE 中查看

title 字段的 boost 的值为 10 使它比 title.std 更重要。

https://www.elastic.co/guide/cn/elasticsearch/guide/current/most-fields.html

Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good的更多相关文章

初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》
本文作为Elastic search系列的开篇之作,简要介绍其简要历史.安装及基本概念和核心模块. 简史 Elastic search基于Lucene(信息检索引擎,ES里一个index—索引,一个索 ...
Elasticsearch权威指南（中文版）
Elasticsearch权威指南(中文版) 下载地址: https://pan.baidu.com/s/1bUGJmwS2Gp0B32xUyXxCIw 扫码下面二维码关注公众号回复100010 获取 ...
Elasticsearch: 权威指南（官方教程）
<Elasticsearch 权威指南>中文版序言前言基础入门深入搜索处理人类语言聚合地理位置数据建模管理.监控和部署
Elasticsearch 权威指南
Elasticsearch 权威指南 http://fuxiaopang.gitbooks.io/learnelasticsearch/content/index.html
Elasticsearch 权威指南 NESTAPI地址
Elasticsearch 权威指南:http://fuxiaopang.gitbooks.io/learnelasticsearch/content/index.html NEST:http://n ...
elasticsearch权威指南
elasticsearch权威指南 https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/
elasticsearch 权威指南搜索阅读笔记(四)
多索引多type搜索分页搜索每页5条查询一到3页数据第一页:http://127.0.0.1:9200/blogs2/product/_search?size=5&from=0 第二页 ...
IDA Pro 权威指南学习笔记(九) - 数据搜索
Search -> Next Code 命令将光标移动到下一个包含指令的位置 Jump -> Jump to Function 命令可以打开所有函数,可以迅速选择一个函数并导航到该函数所在 ...
ElasticSearch权威指南学习（结构化查询）
请求体查询简单查询语句(lite)是一种有效的命令行adhoc查询.但是,如果你想要善用搜索,你必须使用请求体查询(request body search)API. 空查询我们以最简单的 sear ...
ElasticSearch权威指南学习（映射和分析）
概念映射(mapping)机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型(string, number, booleans, date等).+ 分析(analysis)机制用于进行全文 ...

随机推荐

PTA数据结构与算法题目集(中文) 7-9
PTA数据结构与算法题目集(中文) 7-9 7-9 旅游规划 (25 分) 有了一张自驾旅游路线图,你会知道城市间的高速公路长度.以及该公路要收取的过路费.现在需要你写一个程序,帮助前来咨询的游 ...
Linux下修改efi启动项
Linux下有一个efibootmgr工具可以编辑efi启动项,十分方便,简单介绍如下直接运行efibootmgr会显示出当前所有efi启动项,每个启动项前都有相应编号, 可以使用efibootmg ...
python 函数--生成器
一.生成器函数: 常规定义函数,使用yield语句而不是return语句返回结果.yield语句一次返回一个结果. 好处在于,不会一下占用很多内存生成数据. 本质:就是一个迭代器. python中提供 ...
2017蓝桥杯取位数（C++B组）
题目: 标题:取数位求1个整数的第k位数字有很多种方法.以下的方法就是一种.// 求x用10进制表示时的数位长度 int len(int x){ if(x<10) return 1; retur ...
会话技术（session/cookie）
session可保存int double bool array string object:cookie只能保存stringsession 可通过php.ini文件查看存放的位置:cookie不同浏览 ...
萌新带你开车上p站(Ⅳ)
本文作者:萌新前情回顾: 萌新带你开车上p站(一) 萌新带你开车上p站(二) 萌新带你开车上P站(三) 回顾一下前篇,我们开始新的内容吧 0x12 登录后看源码通读程序,逻辑是这样子的: 输入6个 ...
Thymeleaf+SpringBoot+SpringDataJPA实现的中小医院信息管理系统
项目简介项目来源于:https://gitee.com/sensay/hisystem 作者介绍本系统是基于Thymeleaf+SpringBoot+SpringDataJPA实现的的中小医院信息 ...
Pytest系列（21）- allure的特性，@allure.description()、@allure.title()的详细使用
如果你还想从头学起Pytest,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1690628.html 前言前面介绍了两种allure的 ...
1.Git 安装
Git的安装阿里云镜像去下载阿里云的镜像地址卸载Git 1.首先在系统环境变量->path->里面去清理掉git相关的环境变量 2.然后控制面板卸载安装Git 一直下一步即可使用 ...
VulnHub靶场学习_HA: ARMOUR
HA: ARMOUR Vulnhub靶场下载地址:https://www.vulnhub.com/entry/ha-armour,370/ 背景: Klaw从“复仇者联盟”超级秘密基地偷走了一些盔甲 ...

Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good

多数字段编辑

多字段映射编辑

Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good的更多相关文章

随机推荐

热门专题