面对海量的信息,我们很容易被淹没在信息的海洋中;当我们需要查找某个信息的时候,我们就会输入能够体现我们意图的关键字,搜索引擎会通过解析我们的关键字从而构造相应的查询表示方法;然后搜索引擎通过构造的查询在内存存储的文档集合中查找跟用户需求相关的文档,并根据相关度进行排序;以上搜索引擎进行计算的过程就是相关度计算,而其相关的理论基础就是检索模型;

用户输入的是关键字,搜索引擎输出的是相关文档,从关键字和相关性两个角度可以将文档集合分为4个子集;检索模型要解决的就是尽量包含并提升set1、set3的排序;目前主流的的搜索模型主要处理的是包含关键字的set1、set2,而基本上不会涉及set3;

相关文档 不相关文档
包含关键字 set1 set2
不包含关键字 set3 set4

需要注意的一点,我们这里有一个隐含的假设条件,就是用户数据的关键字可以充分体现用户的需求,考虑到自然语言的复杂多变,如果关键字不能精确的代表用户的需求,即使再优秀的检索模型也无济于事;

一、布尔模型

基于集合论的布尔模型使用单词集合来表示文档和用户的查询,并通过布尔表达式来计算两者的相似性;

用户通过与、或、非来构建逻辑表达式作为自己的查询需求;例如我们要查询包含elasticsearch和包含lucene或者kibana的文档;

elasticsearch and (lucene or kibana)

如果搜索引擎中有5个文档,同时每个文档包含三个关键字的情况如下

通过文档矩阵可以看到包含elasticsearch的有d1、d3、d5;

通过文档矩阵可以看到包含lucene或者kibana的文档有d1、d2、d4、d5;

对以上两个条件命中的记录计算交集得到d1、d5;

d1 d2 d3 d4 d5
elasticsearch Y Y Y
lucene Y Y Y
kibana Y Y Y

布尔模型虽然比较简单直观,但是由于其输出结果的二元性,无法细致的计算文档的相关性,自然无法对粗糙的搜索结果进行排序;

二、向量空间模型

向量空间模型是一种历史悠久的文档表示和相关性计算模型;其将文档看做有众多分词组成的多维向量,同时会根据一定的规则计算每个维度的权重;

例如有三个由elasticsearch、lucene、kibana组成的文档,elasticsearch在d1中的权重为我w11,lucene在d1中的权重为w12,kibana在d1中的权重为d13,所以d1可以使用向量(w11,w12,w13)来表示;

elasticsearch lucene kibana
d1 w11 w12 w13
d2 w21 w22 w23
d3 w31 w32 w33

实际的搜索场景中,除了要搜索的文档可以向量化,用户输入的查询关键字也可以向量化,从而将用户的搜索查询转化为计算查询和文档的内容相似性计算;Cosine相似性是最常用的也是非常有效的计算相似性的方式,我们可以通过如下公式计算用户查询Q和文档Di相似性

\[Cosine(Q, D_i) = \frac {\sum_{j=1}^{t} w_{ij} \times q_{j} } {\sqrt{\sum_{j=1}^{t} w_{ij}^2 \times \sum_{j=1}^t} q_{j}^{2}}
\]

公式中的分子是两个向量的点积,而分布是两个向量在欧式空间中的长度的乘积;通过公式我们也可以看到余弦相似性计算的是两个向量之间夹角的余弦值,所以两个向量夹角越小则越相似;

公式中的分母也是对计算结果的规范化;这是为了避免长文档得分过高的一种惩罚机制;通过同时可以看到对于同一个查询,包含同样关键字的长文档会使得分子更小,同时使得分母更大,从而导致相似性下降的更快,即存在过分抑制长文档的问题;例如两个长短差别比较大的文档都包含跟特定主体有关的词,虽然单词在两个文档出现的次数不同,但是在两个文档中出现的词频是相当的,此时公式中的分子不变,但是由于长文档包含的单词比较多,其长度会比较长,随意会导致计算值更小;如果从空间向量的角度考虑,共线的不同长度的向量,通过除以其长度编程单位向量,不管两个向量的长度差距多大,最终的单位向量必然相等,所以向量的长度越长,则抑制效果越明显;

三、TF-IDF模型

查询和文档转化为向量,这是就需要计算每个分词的权重,而特征权重的计算框架就是TF-IDF框架,其包含词频TF、逆文档频率IDF;

TF代表单词在文档中出现的次数,一般来说某个单词出现的次数越多则越能代表文档,其权重值应该越高;虽然可以直接使用单词在文档中出现的次数来计算,考虑到长短文档的影响,实际场景中使用的比较少;

一种词频计算公式如下,我们对单词出现的频数取log运算,这样可以抑制出现次数过多对计算结果的影响;同时为了避免单词出现一次导致结果为0,从而采用加1的平滑处理方案;

\[W_{TF} = 1 + \log(TF)
\]

另外一种单词词频的的计算公式如下,其中的a是调节因子,TF是单词实际出现的频数,而Max(TF)是文档中出现频数最多的单词的频数,通过两者相除进行规范化,计算得到每个单词的在文档内相对出现频数最高的单词的相对频数,从而避免长文档对词频的影响;

\[W_{TF} = a + (1-a) \times \frac {TF} {Max(TF)}
\]

词频衡量的是单词对包含自身文档的重要性,即对文档内容的表征能力,而逆文档词频反映的是单词对文档集合中文档的甄别能力;其计算公式如下,其中N代表文档集合中文档的总数,nk代表包含单词k的文档的数量;从公式可以看到nk越大,则IDF值越小,则对文档的甄别能力越差;

\[IDF_{k} = \log (\frac{N} {n_{k}})
\]

TF-IDF框架结合两种权重因子,一般将两者相乘计算分词权重值;

\[Weight_{word} = TF \times IDF
\]

从公式可以看到,如果对于某个文档来说,

如果某个分词在此文档中出现的词频很高,同时在集合中其他文档中很少出现,那么分词的权重就会很高;

如果某个单词在此文档中出现的词频很低,同时在集合中其他文档中出现的很多,那么分词的权重就会很低;

elasticsearch算法之搜索模型(一)的更多相关文章

  1. 文本相似度算法——空间向量模型的余弦算法和TF-IDF

    1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 ...

  2. elasticsearch的rest搜索--- 查询

    目录: 一.针对这次装B 的解释 二.下载,安装插件elasticsearch-1.7.0   三.索引的mapping 四. 查询 五.对于相关度的大牛的文档 四. 查询 1. 查询的官网的文档   ...

  3. elasticsearch实现网站搜索

    使用elasticsearch 实现网站搜索,可以支持商品搜索,筛选项过滤搜索 ,价格排序, 打分 筛选项聚合,还有其他综合排序 后续推出搜索人工干预排序,根据销量,好评率,售卖率 进行全方位的搜索实 ...

  4. Python 和 Elasticsearch 构建简易搜索

    Python 和 Elasticsearch 构建简易搜索 作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...

  5. CentOS 7.4 下搭建 Elasticsearch 6.3 搜索群集

    上个月 13 号,Elasticsearch 6.3 如约而至,该版本和以往版本相比,新增了很多新功能,其中最令人瞩目的莫过于集成了 X-Pack 模块.而在最新的 X-Pack 中 Elastics ...

  6. 笔记13:Python 和 Elasticsearch 构建简易搜索

    Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍 概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...

  7. elasticsearch联想加搜索实例

    //搜索框具体的ajax如下: <form class="form-wrapper cf"> <img src="__PUBLIC__/Home/img ...

  8. 畅购商城(五):Elasticsearch实现商品搜索

    好好学习,天天向上 本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star,更多文章请前往:目录导航 畅购商城(一):环境搭建 畅购商 ...

  9. Elasticsearch(2) 数据搜索

    本文介绍如何在Elasticsearch中对数据进行搜索. 1.简述 在Elasticsearch中的搜索中,有两类搜索: queries aggregations 区别在于:query可以进行全文搜 ...

随机推荐

  1. CMake与OpenMP

    CMake与OpenMP cmake_minimum_required (VERSION 2.6) project (TEST) set (TEST_VERSION 0.1) set(CMAKE_BU ...

  2. 【刷题-PAT】A1135 Is It A Red-Black Tree (30 分)

    1135 Is It A Red-Black Tree (30 分) There is a kind of balanced binary search tree named red-black tr ...

  3. golang中goroutine协程调度器设计策略

    goroutine与线程 /* goroutine与线程1. 可增长的栈os线程一般都有固定的栈内存,通常为2MB,一个goroutine的在其声明周期开始时只有很小的栈(2KB),goroutine ...

  4. 面向次世代的Windows App SDK 近况

    Project Reunion作为面向次世代Windows App Development的统一工具集.在2021年11月,第三个稳定版正式以1.0的版本号发布的同时,改名部果断出手,以全新的名称Wi ...

  5. Kubernetes常见的部署方案(十四)

    一.常见的部署方案 滚动更新 服务不会停止,但是整个pod会有新旧并存的情况. 重新创建 先停止旧的pod,然后再创建新的pod,这个过程服务是会间断的. 蓝绿 (无需停机,风险较小) 部署v1的应用 ...

  6. Loadrunner11录制移动端测试脚本(原文:http://blog.csdn.net/zhailihua/article/details/73610317)

    一.LR配置 1)LR设置代理,利用手机录制脚本 1-协议选择Web(HTTP/HTML)协议即可 2-录制开始前,对Recoding Options中的Port Mapping配置如下 a.新建Ne ...

  7. Java当中“+=”和“=+”的区别

    "+="会自动类型强制转换! 隐含了一个强制类型转换! 一 string a1 = "9"; int a2 = 10; a1+=a2; a1=a1+a2; 不会 ...

  8. 在ajax请求中,contentType 和 dataType 的区别?

    一.在ajax请求中,contentType 和 dataType 的区别? 1.contentType 内容类型. 1.1默认是 "application/x-www-form-urlen ...

  9. Linux Makefile 生成 *.d 依赖文件及 gcc -M -MF -MP 等相关选项说明

    1. 为什么要使用后缀名为 .d 的依赖文件? 在 Makefile 中, 我们的依赖关系可能需要包含一系列的头文件.比如main.c 源文件内容如下: #include "stdio.h& ...

  10. bom-简单动画

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...