Solr相似度算法二：BM25Similarity

【Solr相似度算法二：BM25Similarity】的更多相关文章

Solr相似度算法二：BM25Similarity

BM25算法的全称是 Okapi BM25,是一种二元独立模型的扩展,也可以用来做搜索的相关度排序. Sphinx的默认相关性算法就是用的BM25.Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF).如果你使用的solr,只需要修改schema.xml,加入下面这行就可以 <similarity class="solr.BM25Similarity"/> BM25也是基于词频的算分公式,分词对它的算分结果也很重要 IDF公式 f(qi,D):就是词频 |…

Solr相似度算法二：Okapi BM25

地址:https://en.wikipedia.org/wiki/Okapi_BM25 In information retrieval, Okapi BM25 (BM stands for Best Matching) is a ranking function used by search engines to rank matching documents according to their relevance to a given search query. It is based…

elasticsearch算法之词项相似度算法(二)

六.莱文斯坦编辑距离前边的几种距离计算方法都是针对相同长度的词项,莱文斯坦编辑距离可以计算两个长度不同的单词之间的距离:莱文斯坦编辑距离是通过添加.删除.或者将一个字符替换为另外一个字符所需的最小编辑次数: 我们假设两个单词u.v的长度分别为i.j,则其可以分以下几种情况进行计算当有一个单词的长度为0的时候,则编辑距离为不为零的单词的长度: \[ld_{u,v}(i,j)=max(i,j)\; \; \; \; \; \; \; \; min(i,j) = 0 \] 从编辑距离的定义上来看,…

Solr相似度算法四：IBSimilarity

Information based:它与Diveragence from randomness模型非常相似.与DFR相似度模型类似,据说该模型也适用于自然语言类的文本.…

Solr相似度算法三：DRFSimilarity

该Similarity 实现了 divergence from randomness (偏离随机性)框架,这是一种基于同名概率模型的相似度模型. 该 similarity有以下配置选项: basic_model – 可能的值: be, d, g, if, in, ine 和 p. after_effect – 可能的值: no, b 和 l. normalization – 可能的值: no, h1, h2, h3 和 z.所有选项除了第一个,都需要一个标准值.…

Solr相似度算法三：DRFSimilarity框架介绍

地址:http://terrier.org/docs/v3.5/dfr_description.html The Divergence from Randomness (DFR) paradigm is a generalisation of one of the very first models of Information Retrieval, Harter's 2-Poisson indexing-model [1]. The 2-Poisson model is based on th…

TensorFlow 入门之手写识别(MNIST) softmax算法二

TensorFlow 入门之手写识别(MNIST) softmax算法二 MNIST Fly softmax回归 softmax回归算法 TensorFlow实现softmax softmax回归算法我们知道MNIST的每一张图片都表示一个数字,从0到9.我们希望得到给定图片代表每个数字的概率.比如说,我们的模型可能推测一张包含9的图片代表数字9的概率是80%但是判断它是8的概率是5%(因为8和9都有上半部分的小圆),然后给予它代表其他数字的概率更小的值. 这是一个使用softmax回归(s…

elasticsearch算法之词项相似度算法(一)

一.词项相似度 elasticsearch支持拼写纠错,其建议词的获取就需要进行词项相似度的计算:今天我们来通过不同的距离算法来学习一下词项相似度算法: 二.数据准备计算词项相似度,就需要首先将词项向量化:我们可以使用以下两种方法字符向量化,其将每个字符映射为一个唯一的数字,我们可以直接使用字符编码即可: import numpy as np def vectorize_words(words): lower_words = [word.lower() for word in words]…

文本相似度算法——空间向量模型的余弦算法和TF-IDF

1.信息检索中的重要发明TF-IDF TF-IDF是一种统计方法,TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类.TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数.IDF反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力. 1.1TF Term frequenc…

文本相似度余弦值相似度算法 VS L氏编辑距离（动态规划）

设置n为字符串s的长度.("我是个小仙女") 设置m为字符串t的长度.("我不是个小仙女") 如果n等于0,返回m并退出.如果m等于0,返回n并退出.构造两个向量v0[m+1] 和v1[m+1],串联0..m之间所有的元素. 2 初始化 v0 to 0..m. 3 检查 s (i from 1 to n) 中的每个字符. 4 检查 t (j from 1 to m) 中的每个字符 5 如果 s[i] 等于 t[j],则编辑代价cost为 0:如果 s[i] 不等于…