NLP-BM25算法理解

Okapi BM25算法

引言 Okapi BM25,一般简称 BM25 算法,在 20 世纪 70 年代到 80 年代,由英国一批信息检索领域的计算机科学家发明.这里的 BM 是"最佳匹配"(Best Match)的缩写,Okapi 是第一个使用这种方法的信息获取系统的名称.在信息检索领域,BM25 算法是工程实践中举足轻重的重要的 Baseline 算法.迄今为止距 BM25 的提出已经过去三十多年,但是这个算法依然在很多信息检索的任务中表现优异,是很多工程师首选的算法之一. 今天我们就来谈谈 BM25 算…

文本相似度-BM25算法

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a…

前两天老师给我们讲解了BM25算法,其中包括由来解释,以及算法推导,这里我再将其整理,这里我不讲解之前的BIM模型,大家有兴趣可以自行了解.Okapi BM25:一个非二值的模型bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法.举个例子:我们查询关键词red apple ,将其分词为red 和apple,我们在我们的1000个文档中分别索引这两个词,但是我们发现red的似乎经常出现,然而apple出现频率不高,那我们将这一千个文档进行得分排序,如果某个文档…

关于KMP算法理解（快速字符串匹配）

参考:http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html 2016-08-22 前言:自己看<算法导论>中关于KMP算法的讲解,文字描述+插图+伪代码,但最终还是云里雾里.之后借助于上面提到的博客才有所体会.感谢博主. 对于其最核心的部分---当模板字符串中前面q个字符和源字符串中的某个子串匹配时,如果继续往下匹配,发现两个字符并不相同,那该如何移动模板字符串进行比较呢…

文本相似度 — TF-IDF和BM25算法

1,$TF-IDF$算法 $TF$是指归一化后的词频,$IDF$是指逆文档频率.给定一个文档集合$D$,有$d_1, d_2, d_3, ......, d_n \in D$.文档集合总共包含$m$个词(注:一般在计算$TF-IDF$时会去除如“的”这一类的停用词),有$w_1, w_2, w_3, ......, w_m \in W$.我们现在以计算词$w_i$在文档$d_j$中的$TF-IDF$指为例.$TF$的计算公式为: $ TF = \frac{freq(i, j)} {max_{le…

Project2--Lucene的Ranking算法修改：BM25算法

原文出自:http://blog.csdn.net/wbia2010lkl/article/details/6046661 1. BM25算法 BM25是二元独立模型的扩展,其得分函数有很多形式,最普通的形式如下: ∑ 其中,k1,k2,K均为经验设置的参数,fi是词项在文档中的频率,qfi是词项在查询中的频率. K1通常为1.2,通常为0-1000 K的形式较为复杂 K= 上式中,dl表示文档的长度,avdl表示文档的平均长度,b通常取0.75 2. BM25具体实现…

FFT算法理解与c语言的实现

完整内容迁移至 http://www.face2ai.com/DIP-2-3-FFT算法理解与c语言的实现/ http://www.tony4ai.com/DIP-2-3-FFT算法理解与c语言的实现/ 为什么需要FFT 第一个问题是为什么要创造FFT,简单的说,为了速度.我们承认DFT很有用,但是我们发现他的速度不是很快,1D的DFT原始算法的时间复杂度是O(n^2),这个可以通过公式观察出来,对于2D的DFT其时间复杂度是O(n^4),这个速度真的很难接受,也就是说,你计算一幅1024x76…

EM算法理解的九层境界

EM算法理解的九层境界 EM 就是 E + M EM 是一种局部下限构造 K-Means是一种Hard EM算法从EM 到广义EM 广义EM的一个特例是VBEM 广义EM的另一个特例是WS算法广义EM的再一个特例是Gibbs抽样算法 WS算法是VAE和GAN组合的简化版 KL距离的统一第一层境界, EM算法就是E 期望 + M 最大化最经典的例子就是抛3个硬币,跑I硬币决定C1和C2,然后抛C1或者C2决定正反面, 然后估算3个硬币的正反面概率值. &amp;amp;amp;a…

HMM-前向后向算法理解与实现（python）

目录基本要素 HMM三大问题概率计算问题前向算法后向算法前向-后向算法基本要素状态 $N$个状态序列 $S = s_1,s_2,...$ 观测序列 $O=O_1,O_2,...$ $\lambda(A,B,\pi)$ 状态转移概率 $A = \{a_{ij}\}$ 发射概率 $B = \{b_{ik}\}$ 初始概率分布 $\pi = \{\pi_i\}$ 观测序列生成过程初始状态选择观测状态转移返回step2 HMM三大问题概率计算问题(评…

HMM-维特比算法理解与实现（python）

HMM-前向后向算法理解与实现(python) HMM-维特比算法理解与实现(python) 解码问题给定观测序列 $O=O_1O_2...O_T$,模型 $\lambda (A,B,\pi)$,找到最可能的状态序列 $I^∗=\{i^∗_1,i^∗_2,...i^∗_T\}$ 近似算法在每个时刻 $t$ 选择最可能的状态,得到对应的状态序列根据HMM-前向后向算法计算时刻 $t$ 处于状态 $i^*_t$ 的概率: \[i^∗_t=argmax[\gamma_t(…

最小生成树——Kruskal算法理解

背景:本文是在小甲鱼数据结构教学视频中的代码的基础上,添加详细注释而完成的.该段代码并不完整,仅摘录了核心算法部分,结合自己的思考,谈谈理解. Prim算法理解: 如图(摘录自小甲鱼教学视频中的图片),是一个带有权值的连通网: 根据上图可以列写出该连通网的邻接表,为了方便直观的理解:(邻接表初始化需按照权值增序排列) edges数组 begin end weight edge0 4 7 7 edge1 2 8 8 edge2 0 1 10 edge3 0 5 11 edge4 1 8 12 ed…

最小生成树——Prim算法理解

背景:本文是在小甲鱼数据结构教学视频中的代码的基础上,添加详细注释而完成的.该段代码并不完整,仅摘录了核心算法部分,结合自己的思考,谈谈理解. Prim算法理解: 如图(摘录自小甲鱼教学视频中的图片),是一个带有权值的连通网. 根据上图可以列写出该连通网的邻接矩阵,为了方便直观的理解: 权值 V0 V1 V2 V3 V4 V5 V0 0 6 1 5 Ꚙ Ꚙ V1 6 0 5 Ꚙ 3 Ꚙ V2 1 5 0 7 5 4 V3 5 Ꚙ 7 0 Ꚙ 2 V4 Ꚙ 3 5 Ꚙ 0 6 V5 Ꚙ Ꚙ 4 2…

NLP传统基础（1）---BM25算法---计算文档和query相关性

一.简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之间相关性的算法.通俗地说:主要就是计算一个query里面所有词q和文档的相关度,然后再把分数做累加操作. 我们有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,我们的做法是,先对query进行切分,得到单词qi,然后单词的分数由3部分组成: 单词qi和D之间的相关性…

编译系统中的 NFA/DFA算法理解

1.问题概述 NFA 和 DFA浅析---要深入了解正则表达式,必须首先理解有穷自动机. 有穷自动机(Finite Automate)是用来模拟实物系统的数学模型,它包括如下五个部分: 有穷状态集States 输入字符集Input symbols 转移函数Transitions 起始状态Start state 接受状态Accepting state(s)(终止状态) 下图为一台有穷自动机…

KNN算法理解

一.算法概述 1.kNN算法又称为k近邻分类(k-nearest neighbor classification)算法. 最简单平庸的分类器或许是那种死记硬背式的分类器,记住全部的训练数据,对于新的数据则直接和训练数据匹配,假设存在同样属性的训练数据,则直接用它的分类来作为新数据的分类.这样的方式有一个明显的缺点,那就是非常可能无法找到全然匹配的训练记录. kNN算法则是从训练集中找到和新数据最接近的k条记录,然后依据他们的主要分类来决定新数据的类别.该算法涉及3个主要因素:训练集.距离或相似的…

weighted Kernel k-means 加权核k均值算法理解及其实现（一）

那就从k-means开始吧对于机器学习的新手小白来说,k-means算法应该都会接触到吧.传统的k-means算法是一个硬聚类(因为要指定k这个参数啦)算法.这里利用百度的解释它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则.K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小.算法采用误差平方和准则函数作为聚类准则函数. 看上去好难懂,实际上任务就是要聚类,然后将相关的点聚成一堆嘛.这里我们可以给出…

一维数组的 K-Means 聚类算法理解

刚看了这个算法,理解如下,放在这里,备忘,如有错误的地方,请指出,谢谢需要做聚类的数组我们称之为[源数组]需要一个分组个数K变量来标记需要分多少个组,这个数组我们称之为[聚类中心数组]及一个缓存临时聚类中心的数组,我们称之为[缓存聚类中心数组]然后初始化一个K长度的数组,值随机(尽量分布在原数组的更大的区间以便计算),用于和源数组进行比对计算. 下面是计算的部分:死循环遍历对源数据进行分组. 分组内遍历原数组的每个元素与聚类中心的每个元素的距离(差值的绝对值),将最小距离的聚类中心数组下标缓存…

[数据挖掘] - 聚类算法：K-means算法理解及SparkCore实现

聚类算法是机器学习中的一大重要算法,也是我们掌握机器学习的必须算法,下面对聚类算法中的K-means算法做一个简单的描述: 一.概述 K-means算法属于聚类算法中的直接聚类算法.给定一个对象(或记录)的集合,将这些对象划分为多个组或者“聚簇”,从而使同组内的对象间比较相似而不同组对象间差异比较大:换言之,聚类算法就是将相似的对象放到同一个聚簇中,而将不相似的对象放到不同的聚簇中.由于在聚类过程中不使用到类别标签,所以相似性的概念要基于对象的属性进行定义.应用不同则相似性规则和聚类算法一般不太…

关于SVM数学细节逻辑的个人理解（三）：SMO算法理解

第三部分:SMO算法的个人理解接下来的这部分我觉得是最难理解的?而且计算也是最难得,就是SMO算法. SMO算法就是帮助我们求解: s.t. 这个优化问题的. 虽然这个优化问题只剩下了α这一个变量,但是别忘了α是一个向量,有m个αi等着我们去优化,所以还是很麻烦,所以大神提出了SMO算法来解决这个优化问题. 关于SMO最好的资料还是论文<Sequential Minimal Optimization A Fast Algorithm for Training Support Vector…

[转]KMP算法理解及java实现

这大概是我看的最好懂的KMP算法讲解了,不过我还只弄懂了大概思想,算法实现我到时候用java实现一遍出处:知乎 https://www.zhihu.com/question/21923021/answer/281346746 有些算法,适合从它产生的动机,如何设计与解决问题这样正向地去介绍.但KMP算法真的不适合这样去学.最好的办法是先搞清楚它所用的数据结构是什么,再搞清楚怎么用,最后为什么的问题就会有恍然大悟的感觉.我试着从这个思路再介绍一下.大家只需要记住一点,PMT是什么东西.然后自己临…

KMP算法理解（转）

(作者matrix67) KMP算法是拿来处理字符串匹配的.换句话说,给你两个字符串,你需要回答,B串是否是A串的子串(A串是否包含B串).比如,字符串A="I'm matrix67",字符串B="matrix",我们就说B是A的子串.你可以委婉地问你的MM:"假如你要向你喜欢的人表白的话,我的名字是你的告白语中的子串吗?" 解决这类问题,通常我们的方法是枚举从A串的什么位置起开始与B匹配,然后验证是否匹配.假如A串长度为n,B串长度为m,那么这…

EM算法理解

一.概述概率模型有时既含有观测变量,又含有隐变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接利用极大似然估计法或者贝叶斯估计法估计模型参数.但是,当模型同时又含有隐变量时,就不能简单地使用这些方法.EM算法适用于带有隐变量的概率模型的参数估计,利用极大似然估计法逐步迭代求解. 二.jensen不等式是区间上的凸函数,则对任意的 ,有不等式: 即: E[f(X)] ≥ f(E(X)) ,因为(x1+x2+...+xn)/n=E(X),同理可得E(f(X)).当x1=x2…

PCA算法理解及代码实现

github:PCA代码实现.PCA应用本文算法均使用python3实现 1. 数据降维在实际生产生活中,我们所获得的数据集在特征上往往具有很高的维度,对高维度的数据进行处理时消耗的时间很大,并且过多的特征变量也会妨碍查找规律的建立.如何在最大程度上保留数据集的信息量的前提下进行数据维度的降低,是我们需要解决的问题. 对数据进行降维有以下优点: (1)使得数据集更易使用 (2)降低很多算法的计算开销 (3)去除噪声 (4)使得结果易懂降维技术作为数据预处理的一部…

kmeans算法理解及代码实现

github:kmeans代码实现1.kmeans代码实现2(包含二分k-means) 本文算法均使用python3实现 1 聚类算法对于"监督学习"(supervised learning),其训练样本是带有标记信息的,并且监督学习的目的是:对带有标记的数据集进行模型学习,从而便于对新的样本进行分类.而在"无监督学习"(unsupervised learning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进…

k邻近算法理解及代码实现

github:代码实现本文算法均使用python3实现 1 KNN KNN(k-nearest neighbor, k近邻法),故名思议,是根据最近的 $ k $ 个邻居来判断未知点属于哪个类别.<统计学习方法>中对其定义为: 给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 $ k $ 个实例,这 $ k $ 个实例的多数属于某个类,就把该输入实例分为这个类. 我们对该定义进行直观地分析,已知实例点为如下图中带有颜色的点,不同颜色代表不同类别,未知点为绿色点,…

RSA算法理解

RSA加密算法是最常用的非对称加密算法,CFCA在证书服务中离不了它.但是有不少新来的同事对它不太了解,恰好看到一本书中作者用实例对它进行了简化而生动的描述,使得高深的数学理论能够被容易地理解.我们经过整理和改写特别推荐给大家阅读,希望能够对时间紧张但是又想了解它的同事有所帮助. RSA是第一个比较完善的公开密钥算法,它既能用于加密,也能用于数字签名.RSA以它的三个发明者Ron Rivest, Adi Shamir, Leonard Adleman的名字首字母命名,这个算法经受住了多年深入的密…

超详细的EM算法理解

众所周知,极大似然估计是一种应用很广泛的参数估计方法.例如我手头有一些东北人的身高的数据,又知道身高的概率模型是高斯分布,那么利用极大化似然函数的方法可以估计出高斯分布的两个参数,均值和方差.这个方法基本上所有概率课本上都会讲,我这就不多说了,不清楚的请百度. 然而现在我面临的是这种情况,我手上的数据是四川人和东北人的身高合集,然而对于其中具体的每一个数据,并没有标定出它来自“东北人”还是“四川人”,我想如果把这个数据集的概率密度画出来,大约是这个样子: 好了不要吐槽了,能画成这个样子我已经很用…