Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法

2019独角兽企业重金招聘Python工程师标准>>>

Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法博客分类： java 搜索引擎，爬虫

主题:Levenshtein Distance(LD);

相关介绍：Levenshtein distance是由俄国科学家Vladimir Levenshtein在1965年设计并以他的名字命名的。如果不能拼写或发Levenshtein音，通常可以称它edit distance（编辑距离）；

用途：该算法用于判断两个字符串的距离，或者叫模糊度。个人理解就是差异程度。而差异的标准就是1）加一个字母(Insert),2)删一个字母(Delete),3改变一个字母(Substitute)。

算法描述：

Step	Description
1	Set n to be the length of s.Set m to be the length of t. If n = 0, return m and exit.If m = 0, return n and exit. Construct a matrix containing 0..m rows and 0..n columns.
2	Initialize the first row to 0..n. Initialize the first column to 0..m.
3	Examine each character of s (I from 1 to n).
4	Examine each character of t (j from 1 to m).
5	If s[i] equals t[j], the cost is 0. If s[i] doesn’t equal t[j], the cost is 1.
6	Set cell d[I,j] of the matrix equal to the minimum of: a. The cell immediately above plus 1: d[i-1,j] + 1. b. The cell immediately to the left plus 1: d[I,j-1] + 1. c. The cell diagonally above and to the left plus the cost: d[i-1,j-1] + cost.
7	After the iteration steps (3, 4, 5, 6) are complete, the distance is found in cell d[n,m].

1、得到源串s长度n与目标串t的长度m，如果一方为的长度0，则返回另一方的长度。

2、初始化(n+1)*(m+1)的矩阵d，第一行第一列的值为0增至对应的长度。

3、遍历数组中的每一个字符(i,j从1开始)。如果s[i]与t[j]的值相等，cost值为0，否则为1。D[i][j]的值为d[i-1,j] + 1(左边的值加1)、d[I,j-1] + 1.(上边的值加1)、d[i-1,j-1] + cost (斜上角的值加cost) 中的最小者。

4、等第三步遍历完后，右下角d[n,m]的值就为两个字符串的距离。

应用演示：source:word与target:world比较过程。

应用举例：据《开发自己的搜索引擎——Lucene 2.0+Heriterx

》记载P134页记载，lucene中FuzzyQuery(模糊匹配)就是应用该算法的；也可用于Spell checking(拼写检查),Speech recognition(语句识别),DNA analysis(DNA分析) ,Plagiarism detection(抄袭检测)。

参考资料：

http://www.merriampark.com/ld.htm

http://my.oschina.net/MrMichael/blog/339217

转载于:https://my.oschina.net/xiaominmin/blog/1597443

Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法的更多相关文章

扒一扒编辑距离（Levenshtein Distance）算法
最近由于工作需要,接触了编辑距离(Levenshtein Distance)算法.赶脚很有意思.最初百度了一些文章,但讲的都不是很好,读起来感觉似懂非懂.最后还是用google找到了一些资料才慢慢理解 ...
Levenshtein distance 编辑距离算法
这几天再看 virtrual-dom,关于两个列表的对比,讲到了 Levenshtein distance 距离,周末抽空做一下总结. Levenshtein Distance 介绍在信息理论和计算 ...
Levenshtein Distance (编辑距离) 算法详解
编辑距离即从一个字符串变换到另一个字符串所需要的最少变化操作步骤(以字符为单位,如son到sun,s不用变,将o->s,n不用变,故操作步骤为1). 为了得到编辑距离,我们画一张二维表来理解,以 ...
Levenshtein Distance + LCS 算法计算两个字符串的相似度
//LD最短编辑路径算法 public static int LevenshteinDistance(string source, string target) { int cell = source ...
C#实现Levenshtein distance最小编辑距离算法
Levenshtein distance,中文名为最小编辑距离,其目的是找出两个字符串之间需要改动多少个字符后变成一致.该算法使用了动态规划的算法策略,该问题具备最优子结构,最小编辑距离包含子最小编辑 ...
利用Levenshtein Distance (编辑距离)实现文档相似度计算
1.首先将word文档解压缩为zip /** * 修改后缀名 */ public static String reName(String path){ File file=new File(path) ...
Levenshtein Distance算法（编辑距离算法）
编辑距离编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...
最喜欢的算法（们） - Levenshtein distance
String Matching: Levenshtein distance Purpose: to use as little effort to convert one string into th ...
Magic Number（Levenshtein distance算法）
Magic Number Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit ...

随机推荐

《操作系统》课程笔记（Ch01-导论）
Ch01 - 导论操作系统的功能用户视角:在乎使用方便,不在乎资源利用系统视角:资源分配器.控制程序计算机系统的运行启动:利用固件(Firmware)中的引导程序(Bootstrap Pro ...
word多级列表应用
Pytest系列（18）- 超美测试报告插件之allure-pytest的基础使用
如果你还想从头学起Pytest,可以看看这个系列的文章哦! https://www.cnblogs.com/poloyy/category/1690628.html 官方介绍 Allure Frame ...
3分钟掌握Quartz.net分布式定时任务的姿势
引言长话短说,今天聊一聊分布式定时任务,我的流水账笔记: ASP.NET Core+Quartz.Net实现web定时任务 AspNetCore结合Redis实践消息队列细心朋友稍一分析,就知道还 ...
HttpClient之Get请求和Post请求示例
HttpClient之Get请求和Post请求示例博客分类: Java综合 HttpClient的支持在HTTP/1.1规范中定义的所有的HTTP方法:GET, HEAD, POST, PUT, ...
Java成长记录第二集--基础重点
第一篇写的博客给自己的学习路线立了个flag后,感觉现在学习的积极性大增,这也离不开那几位老铁们的互相鼓励.废话不多说,现在给出自己总结的Java基础部分所要重点注意的内容,对以后的开发工作也是很常用 ...
AJ学IOS（47）之网易彩票帮助界面UIWebView的运用
AJ分享,必须精品效果: 制作过程首先是帮助按钮那个地方的点击. 这里是用点击跳转的用的是 NJSettingArrowItem,前面的设置的,从字典通过模型转过来的. // 分享 NJSetti ...
ASE past project:interview & analysis
采访往届ASE课程学员李潇,他所在的团队blog戳这里http://www.cnblogs.com/smart-code/ Q1:师兄你觉得在团队项目中,有哪些需要注意的事情? A1:团队合作吧.首先 ...
Daily Scrum 12/9/2015
Done: Yandong: multi query的代码整合完成,之前采用的是将不同query的score相加的方法,目前改用将不同query的score相乘,搜索效果得到明显提升: Zhaoyan ...
Gitflow分支管理策略
Gitflow存在两个记录项目历史的分支 Master分支:存储(官方的,正式的)项目发布历史记录的分支. develop分支:充当功能的集成分支. Develop分支将包含项目的完整历史记录,而ma ...

Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法

Lucene的FuzzyQuery中用到的Levenshtein Distance(LD)算法的更多相关文章

随机推荐

热门专题