Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good
多数字段编辑
全文搜索被称作是 召回率(Recall) 与 精确率(Precision) 的战场: 召回率 ——返回所有的相关文档;精确率 ——不返回无关文档。目的是在结果的第一页中为用户呈现最为相关的文档。
为了提高召回率的效果,我们扩大搜索范围 ——不仅返回与用户搜索词精确匹配的文档,还会返回我们认为与查询相关的所有文档。如果一个用户搜索 “quick brown box” ,一个包含词语 fast foxes
的文档被认为是非常合理的返回结果。
如果包含词语 fast foxes
的文档是能找到的唯一相关文档,那么它会出现在结果列表的最上面,但是,如果有 100 个文档都出现了词语 quick brown fox
,那么这个包含词语 fast foxes
的文档当然会被认为是次相关的,它可能处于返回结果列表更下面的某个地方。当包含了很多潜在匹配之后,我们需要将最匹配的几个置于结果列表的顶部。
提高全文相关性精度的常用方式是为同一文本建立多种方式的索引, 每种方式都提供了一个不同的相关度信号 signal 。主字段会以尽可能多的形式的去匹配尽可能多的文档。举个例子,我们可以进行以下操作:
- 使用词干提取来索引
jumps
、jumping
和jumped
样的词,将jump
作为它们的词根形式。这样即使用户搜索jumped
,也还是能找到包含jumping
的匹配的文档。 - 将同义词包括其中,如
jump
、leap
和hop
。 - 移除变音或口音词:如
ésta
、está
和esta
都会以无变音形式esta
来索引。
尽管如此,如果我们有两个文档,其中一个包含词 jumped
,另一个包含词 jumping
,用户很可能期望前者能排的更高,因为它正好与输入的搜索条件一致。
为了达到目的,我们可以将相同的文本索引到其他字段从而提供更为精确的匹配。一个字段可能是为词干未提取过的版本,另一个字段可能是变音过的原始词,第三个可能使用 shingles 提供 词语相似性 信息。这些附加的字段可以看成提高每个文档的相关度评分的信号 signals ,能匹配字段的越多越好。
一个文档如果与广度匹配的主字段相匹配,那么它会出现在结果列表中。如果文档同时又与 signal 信号字段匹配,那么它会获得额外加分,系统会提升它在结果列表中的位置。
我们会在本书稍后对同义词、词相似性、部分匹配以及其他潜在的信号进行讨论,但这里只使用词干已提取(stemmed)和未提取(unstemmed)的字段作为简单例子来说明这种技术。
多字段映射编辑
首先要做的事情就是对我们的字段索引两次: 一次使用词干模式以及一次非词干模式。为了做到这点,采用 multifields 来实现,已经在 multifields 有所介绍:
- DELETE /my_index
- PUT /my_index
- {
- "settings": { "number_of_shards": 1 },
- "mappings": {
- "my_type": {
- "properties": {
- "title": {
- "type": "string",
- "analyzer": "english",
- "fields": {
- "std": {
- "type": "string",
- "analyzer": "standard"
- }
- }
- }
- }
- }
- }
- }
|
参考 被破坏的相关度. |
|
|
|
|
接着索引一些文档:
- PUT /my_index/my_type/1
- { "title": "My rabbit jumps" }
- PUT /my_index/my_type/2
- { "title": "Jumping jack rabbits" }
这里用一个简单 match
查询 title
标题字段是否包含 jumping rabbits
(跳跃的兔子):
- GET /my_index/_search
- {
- "query": {
- "match": {
- "title": "jumping rabbits"
- }
- }
- }
因为有了 english
分析器,这个查询是在查找以 jump
和 rabbit
这两个被提取词的文档。两个文档的 title
字段都同时包括这两个词,所以两个文档得到的评分也相同:
- {
- "hits": [
- {
- "_id": "1",
- "_score": 0.42039964,
- "_source": {
- "title": "My rabbit jumps"
- }
- },
- {
- "_id": "2",
- "_score": 0.42039964,
- "_source": {
- "title": "Jumping jack rabbits"
- }
- }
- ]
- }
如果只是查询 title.std
字段,那么只有文档 2 是匹配的。尽管如此,如果同时查询两个字段,然后使用 bool
查询将评分结果 合并 ,那么两个文档都是匹配的( title
字段的作用),而且文档 2 的相关度评分更高( title.std
字段的作用):
- GET /my_index/_search
- {
- "query": {
- "multi_match": {
- "query": "jumping rabbits",
- "type": "most_fields",
- "fields": [ "title", "title.std" ]
- }
- }
- }
|
我们希望将所有匹配字段的评分合并起来,所以使用 |
- {
- "hits": [
- {
- "_id": "2",
- "_score": 0.8226396,
- "_source": {
- "title": "Jumping jack rabbits"
- }
- },
- {
- "_id": "1",
- "_score": 0.10741998,
- "_source": {
- "title": "My rabbit jumps"
- }
- }
- ]
- }
|
文档 2 现在的评分要比文档 1 高。 |
用广度匹配字段 title
包括尽可能多的文档——以提升召回率——同时又使用字段 title.std
作为 信号 将相关度更高的文档置于结果顶部。
每个字段对于最终评分的贡献可以通过自定义值 boost
来控制。比如,使 title
字段更为重要,这样同时也降低了其他信号字段的作用:
- GET /my_index/_search
- {
- "query": {
- "multi_match": {
- "query": "jumping rabbits",
- "type": "most_fields",
- "fields": [ "title^10", "title.std" ]
- }
- }
- }
|
|
https://www.elastic.co/guide/cn/elasticsearch/guide/current/most-fields.html
Elasticsearch: 权威指南 » 深入搜索 » 多字段搜索 » 多数字段 good的更多相关文章
- 初识Elastic search—附《Elasticsearch权威指南—官方guide的译文》
本文作为Elastic search系列的开篇之作,简要介绍其简要历史.安装及基本概念和核心模块. 简史 Elastic search基于Lucene(信息检索引擎,ES里一个index—索引,一个索 ...
- Elasticsearch权威指南(中文版)
Elasticsearch权威指南(中文版) 下载地址: https://pan.baidu.com/s/1bUGJmwS2Gp0B32xUyXxCIw 扫码下面二维码关注公众号回复100010 获取 ...
- Elasticsearch: 权威指南(官方教程)
<Elasticsearch 权威指南>中文版 序言 前言 基础入门 深入搜索 处理人类语言 聚合 地理位置 数据建模 管理.监控和部署
- Elasticsearch 权威指南
Elasticsearch 权威指南 http://fuxiaopang.gitbooks.io/learnelasticsearch/content/index.html
- Elasticsearch 权威指南 NESTAPI地址
Elasticsearch 权威指南:http://fuxiaopang.gitbooks.io/learnelasticsearch/content/index.html NEST:http://n ...
- elasticsearch权威指南
elasticsearch权威指南 https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/
- elasticsearch 权威指南搜索阅读笔记(四)
多索引多type搜索 分页搜索 每页5条 查询一到3页数据 第一页:http://127.0.0.1:9200/blogs2/product/_search?size=5&from=0 第二页 ...
- IDA Pro 权威指南学习笔记(九) - 数据搜索
Search -> Next Code 命令将光标移动到下一个包含指令的位置 Jump -> Jump to Function 命令可以打开所有函数,可以迅速选择一个函数并导航到该函数所在 ...
- ElasticSearch权威指南学习(结构化查询)
请求体查询 简单查询语句(lite)是一种有效的命令行adhoc查询.但是,如果你想要善用搜索,你必须使用请求体查询(request body search)API. 空查询 我们以最简单的 sear ...
- ElasticSearch权威指南学习(映射和分析)
概念 映射(mapping)机制用于进行字段类型确认,将每个字段匹配为一种确定的数据类型(string, number, booleans, date等).+ 分析(analysis)机制用于进行全文 ...
随机推荐
- Android监听自身卸载,弹出用户反馈调查
1,情景分析 在上上篇博客中我写了一下NDK开发实践项目,使用开源的LAME库转码MP3,作为前面几篇基础博客的加深理解使用的,但是这样的项目用处不大,除了练练NDK功底.这篇博客,我将讲述一下一个各 ...
- android 应用模式之mvp
说到MVP就不得不提到MVC,做过J2EE的猿友们肯定知道MVC是个什么东西.MVC即 Model.View.Controller, 那MVP就Model.View.Presenter.Model用于 ...
- ruby轻松自删除代码
因为windows的文件删除机制和unix like的不一样,so不保证如下代码能在windows中使用,哪位童鞋帮我在windows中测试一下也好啊! #!/usr/bin/ruby 5.times ...
- C# 设置Word文档背景(纯色/渐变/图片背景)
Word是我们日常生活.学习和工作中必不可少的文档处理工具.精致美观的文档能给人带来阅读时视觉上的美感.在本篇文章中,将介绍如何使用组件Free Spire.Doc for .NET(社区版)给Wor ...
- miniUI中弹出框问题
---恢复内容开始--- 设置页面弹出框并提交弹出框内容 弹出按钮 <a class="btn_color_1" onclick="onEdit(0)"& ...
- go Mutex (互斥锁)和RWMutex(读写锁)
转载自: https://blog.csdn.net/skh2015java/article/details/60334437 golang中sync包实现了两种锁Mutex (互斥锁)和RWMute ...
- Apache 流框架 Flink,Spark Streaming,Storm对比分析(一)
本文由 网易云发布. 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意.Flink是原生的流处理系统,提供high level的API.Flink也提 ...
- 你需要知道的Android拍照适配方案
拍照功能实现 Android 程序上实现拍照功能的方式分为两种:第一种是利用相机的 API 来自定义相机,第二种是利用 Intent 调用系统指定的相机拍照.下面讲的内容都是针对第二种实现方式的适配. ...
- 有关于二分搜索的常见问题(java实现)
前言: 二分搜索是一个非常常见的面试题目,它具有非常广泛的用途.熟练的掌握二分搜索的基本形式和他的变式是非常重要的.接下来我们将使用java实现一些常见的有关二分搜索的问题. 具体内容: 1.二分搜索 ...
- SpringMVC+GSON 对象序列化--日期格式的处理
Gson异常强大因此使用它代替了Jackson作为SpringMVC消息转换器. 在自己的项目中,发现对象在序列化后,日期格式出现了问题. 先看问题 在员工表中有一列是生日,字段类型为Date,也就是 ...