1.7.3 Relevance-相关性】的更多相关文章

一.多shard场景下relevance score不准确问题     1.问题描述:            多个shard下,如果每个shard包含指定搜索条件的document数量不均匀的情况下,会导致在某个shard上document数量少的时候,计算该指定搜索条件的document的相关性评分要虚高.导致该document比实际真正想要返回的document的评分要高.     2.解决         (1)生产环境下,数据量大,尽可能实现均匀分配 数据量很大的话,其实一般情况下,在概…
本文翻译自Elasticsearch官方指南的Sorting and Relevance一章的第一节. 原文地址:http://www.elastic.co/guide/en/elasticsearch/guide/current/_sorting.html 排序 ES默认是通过相关度来对结果进行排序的,最相关的文档在最前面.在本章里,我们阐述我们所说的相关性以及它是如何计算的,但是我们先讲解sort参数及其如何使用. 为了根据相关性进行排序,我们需要把相关性表示为一个值.在Elasticsea…
一.多shard场景下relevance score不准确问题 1.问题描述: 多个shard下,如果每个shard包含指定搜索条件的document数量不均匀的情况下,会导致在某个shard上document数量少的时候,计算该指定搜索条件的document的相关性评分要虚高.导致该document比实际真正想要返回的document的评分要高. 2.解决 (1)生产环境下,数据量大,尽可能实现均匀分配 数据量很大的话,其实一般情况下,在概率学的背景下,es都是在多个shard中均匀路由数据的…
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p/6714064.html,这里就不再赘述了.针对之前在计算Ranking Relevance的过程中遇到的问题:Click Behavior对长尾的或者根本没出现过的query-doc pair无效,Term Match无法解决近义词和语义隔离问题,Topic Match解释性差的问题.本篇博客介…
之前的博客中已经介绍了Ranking Relevance的一些基本情况(Click Behavior,和Text Match):http://www.cnblogs.com/bentuwuying/p/6714064.html,这里就不再赘述了.针对之前在计算Ranking Relevance的过程中遇到的问题:Click Behavior对长尾的或者根本没出现过的query-doc pair无效,Term Match无法解决近义词和语义隔离问题,Topic Match解释性差的问题.本篇博客介…
文章链接 https://www.kdd.org/kdd2016/papers/files/adf0361-yinA.pdf abstract 点击特征在长尾query上的稀疏性问题 基础相关性三大技术:排序函数,语义匹配特征,query改写 introduction 问题: 1)直接文本匹配的问题:query和doc的语义差异,query中的‘how much’如何匹配doc中的‘price’: 2)大量的长尾query使得点击模型失效: 3)用户视搜索引擎为智能问答系统,希望一键找到答案.…
1.相关性 ElasticSearch检索结果是按照相关性倒序排列的,相关性是什么,相关性又是如何计算的?每个文档都有相关性评分,用一个正浮点数字段 _score 来表示 . _score 的评分越高,相关性越高. 查询语句会为每个文档生成一个 _score 字段.评分的计算方式取决于查询类型 不同的查询语句用于不同的目的: fuzzy 查询会计算与关键词的拼写相似程度 terms 查询会计算 找到的内容与关键词组成部分匹配的百分比 但是通常我们说的 relevance 是我们用来计算全文本字段…
7. RECENCY-SENSITIVE RANKING 作用: 为recency-sensitive的query提高排序质量: 对于这类query,用户不仅要相关的还需要最新的信息: 方法:recency-demoted relevance 1) 对每篇doc,按照它的freshness程度进行分级:very fresh, fresh, slightly out-dated, stale, 和 non-time-sensitive(与时间无关): 2) 在base relevance的基础上,…
ABSTRACT: 此文在相关性方面介绍三项关键技术:ranking functions, semantic matching features, query rewriting: 此文内容基于拥有百亿url索引的yahoo搜素引擎: Keywords: learning to rank; query rewriting; semantic matching; deep learning; 1. INTRODUCTION 1)搜索相关性的发展: 早期 - concentrated on text…
导读:今天给大家分享的主题是搜索匹配问题在 DiDi Food 中的一些探索与应用.本文首先介绍了搜索相关性的一些背景,之后介绍了业界常见的三种匹配模型,以及在DiDi Food业务中的模型效果对比. 匹配模型包括:1. 基于表征的深度匹配模型:2. 基于交互的深度匹配模型:3. 同时基于表征与交互的深度模型.文章最后会介绍目前搜索匹配算法在 DiDi Food 业务中的一些效果. 1. 搜索相关性 搜索相关性模型本质上是一个匹配的过程,即用户通过一个具体请求,例如发送一个 query 来抽取想…