Elasticsearch系列(5):深入搜索】的更多相关文章

一.搜索API 1. 搜索API 端点地址 从索引tweet里面搜索字段user为kimchy的记录 GET /twitter/_search?q=user:kimchy 从索引tweet,user里面搜索字段user为kimchy的记录 GET /twitter/tweet,user/_search?q=user:kimchy GET /kimchy,elasticsearch/_search?q=tag:wow 从所有索引里面搜索字段tag为wow的记录 GET /_all/_search?…
概要 结构化搜索针对日期.时间.数字等结构化数据的搜索,它们有自己的格式,我们可以对它们进行范围,比较大小等逻辑操作,这些逻辑操作得到的结果非黑即白,要么符合条件在结果集里,要么不符合条件在结果集之外,没有那种相似的概念. 前言 结构化搜索将会有大量的搜索实例,我们将"音乐APP"作为主要的案例背景,去开发一些跟音乐APP相关的搜索或数据分析,有助力于我们理解实战的目标,顺带巩固一下学习的知识. 我们将一首歌需要的字段暂定为: | name | code | type | remark…
概要 本篇介绍怎样在全文字段中搜索到最相关的文档,包含手动控制搜索的精准度,搜索条件权重控制. 手动控制搜索的精准度 搜索的两个重要维度:相关性(Relevance)和分析(Analysis). 相关性是评价查询条件与结果的相关程度,并对相关程度进行排序,一般使用TF/IDF方法. 分析是指将索引文档与查询条件规范化的一个过程,目的是建立倒排索引时,尽可能地提升召回率. match查询原理 匹配查询match是核心查询语法,它的主要应用场景就是全文搜索,我们举一个示例: GET /music/c…
一.查询建议介绍 1. 查询建议是什么? 查询建议,为用户提供良好的使用体验.主要包括: 拼写检查: 自动建议查询词(自动补全) 拼写检查如图: 自动建议查询词(自动补全): 2. ES中查询建议的API 查询建议也是使用_search端点地址.在DSL中suggest节点来定义需要的建议查询 示例1:定义单个建议查询词 POST twitter/_search { "query" : { "match": { "message": "…
概要 本篇介绍一下multi_match的best_fields.most_fields和cross_fields三种语法的场景和简单示例. 最佳字段 bool查询采取"more-matches-is-better"匹配越多分越高的方式,所以每条match语句的评分结果会被加在一起,从而为每个文档提供最终的分数_score.能与两条语句同时匹配的文档会比只与一条语句匹配的文档得分要高,但有时这样也会带来一些与期望不符合的情况,我们举个例子: 我们以英文儿歌为案例背景,我们这样搜索: G…
ElasticSearch 2 (18) - 深入搜索系列之控制相关度 摘要 处理结构化数据(比如:时间.数字.字符串.枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/非匹配是全文搜索的基础部分,但不止这些,我们也同样需要知道每个文档与查询的相关度,在全文搜索引擎中我们不仅需要找到匹配的文档,还需要根据他们相关度的高低,对他们进行排序. 全文相关的公式或相似算法(similarity algorithms) 会将多个因素合并起来,为每个文档生成一个相关度分数 *_…
ElasticSearch 2 (17) - 深入搜索系列之部分匹配 摘要 到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是,如果我们想匹配部分术语而不是全部改怎么办?部分匹配(Partial matching) 允许用户指定查找术语的一部分,然后找出所有包含这部分片段的词. 与我们想象的不一样,需要对术语进行部分匹配的需求在全文搜索引擎的世界并不常见,但是如果读者有SQL方面的背景,可能会在某个时候使用下面的SQL语句对…
ElasticSearch 2 (16) - 深入搜索系列之近似度匹配 摘要 标准的全文搜索使用TF/IDF处理文档.文档里的每个字段或一袋子词.match 查询可以告诉我们哪个袋子里面包含我们搜索的术语,但这只是故事的一部分.它并不能告诉我们词语之间的关系. 考虑下面句子的区别: Sue ate the alligator. The alligator ate sue. Sue never goes anywhere without her alligator-skin purse. 一个 m…
ElasticSearch 2 (15) - 深入搜索系列之多字段搜索 摘要 查询很少是简单的一句话匹配(one-clause match)查询.很多时候,我们需要用相同或不同的字符串查询1个或多个字段,也就是说,我们需要对多个查询语句以及他们相关分数(relevance scores)进行有意义的合并. 有时候或许我们正查找一本名为战争与和平(War and Peace)而作者叫Leo Tolstoy的书,或许我们正用"最少匹配"("minimum should match…
ElasticSearch 2 (14) - 深入搜索系列之全文搜索 摘要 在看过结构化搜索之后,我们看看怎样在全文字段中查找相关度最高的文档. 全文搜索两个最重要的方面是: 相关(relevance) 相关是将查询到相关的文档结果进行排名的一种能力,这种相关度可以是根据TF/IDF.地理位置相似性(geolocation).模糊相似,或者其他的一些算法得出. 分析(analysis) 将一个文本块转换为唯一的.规范化的token的过程,目的是为了(a)创建反向索引以及(b)查询反向索引. 当我…