扒一扒编辑距离（Levenshtein Distance）算法

最近由于工作需要，接触了编辑距离（Levenshtein Distance）算法。赶脚很有意思。最初百度了一些文章，但讲的都不是很好，读起来感觉似懂非懂。最后还是用google找到了一些资料才慢慢理解。当我完全理解的时就想把自己探索时遇到的“坑”总结起来，为后人“乘凉”。于是就有了这篇博文。

下面先来看一下他的定义：
编辑距离就是用来计算从原串（s）转换到目标串(t)所需要的最少的插入、删除和替换
的数目，在NLP中应用比较广泛，如一些评测方法中就用到了（wer,mWer等），同时也常用来计算你对原文本所作的改动数。编辑距离的算法是首先由俄国科学家Levenshtein提出的，故又叫Levenshtein Distance。
Levenshtein Distance算法可以看作动态规划。它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度(实际上叫做距离),然后进一步得到下一个字符位置时的相似度。比如：字符串intention变成execution需要进行下面的操作

如上图所示，d（deletion）代表删除操作，s（substitution）代表替换操作，i（insertion）代表插入操作。这里每种操作的cost为1，那么它的ED（Edit Distance）=5。

代码实现：

挖坑&填坑：
1、为什么要初始化第一行和第一列的值？
答：上面代码初始化后矩阵的结构如下：

		i	n	t	e	n	t	i	o	n
	0	1	2	3	4	5	6	7	8	9
e	1
x	2
e	3
c	4
u	5
t	6
i	7
o	8
n	9

从上面可以看出，第一行的值表示s2的距离，第一列的值表示s1的距离

2、matrix[i - 1, j] 、matrix[i, j - 1]、matrix[i - 1, j - 1] 分别表示啥？它们为啥都加1，而这个1又表示啥？
答：

根据编辑距离的概念可知，所需要最少的的插入、删除和替换的数目就是编辑距离。我们要找出每个字符中最小的操作，那么怎么找出“最小的操作”呢？只能挨个试了，所以出现了对每个字符进行删除、插入和替换的操作，然后进行对比从而找出最小的编辑距离
    matrix[i - 1, j] 表示删除操作
    matrix[i, j - 1]表示插入操作
    matrix[i - 1, j - 1]表示替换操作
   “1”表示距离值，因为ED算法是动态规划问题，后面的值由前面的结果得出，所以加1

3、为什么 matrix[i - 1, j]就表示删除操作，matrix[i, j - 1]就表示插入操作，matrix[i - 1, j - 1]就表示替换操作呢？
答：

举个例子：
matrix[3,3]位置，现在i=3，对应的字符串为exe；j=3，对应的字符串为int
matrix[i-1,j]=matrix[2,3]，2对应的比较字符为ex，请注意关键点来了，i 和 i-1对比，也就是exe 和 ex 对比，是不是少了一个字符？那么我们就可以认为对字符exe进行了删除的操作得到ex。讲到这是不是有些感觉呢？ok，我们接着进行。
matrix[i,j-1]=matrix[3,2],2对应的比较字符in。同样我们用in和int相比，in少一个字符，那么我们可以认为in需要进行插入操作从而得到int。
matrix[i-1.j-1]=matrix[2,2]，它表示替换操作，因为替换=删除+插入。看到这里你一定会恍然大悟原来是这样。这次比较的字符是ex和in，相当于我们对exe进行了删除操作得到ex，对in进行插入操作的到int

最后输出结果：

		i	n	t	e	n	t	i	o	n
	0	1	2	3	4	5	6	7	8	9
e	1	1	2	3	3	4	5	6	7	8
x	2	2	2	3	4	4	5	6	7	8
e	3	3	3	3	3	4	5	6	7	8
c	4	4	4	4	4	4	5	6	7	8
u	5	5	5	5	5	5	5	6	7	8
t	6	6	6	5	6	6	5	6	7	8
i	7	6	7	6	6	7	6	5	6	7
o	8	7	7	7	7	7	7	6	5	6
n	9	8	7	8	8	7	8	7	6	5

结束
以上是我个人的理解，如果有什么不对的地方还请大家指出

扒一扒编辑距离（Levenshtein Distance）算法的更多相关文章

Levenshtein Distance算法（编辑距离算法）
编辑距离编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...
字符串相似度算法——Levenshtein Distance算法
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...
字符串相似度算法-LEVENSHTEIN DISTANCE算法
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...
Magic Number（Levenshtein distance算法）
Magic Number Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit ...
动态规划 001 - 编辑距离(Levenshtein Distance)问题
问题字符串的编辑距离也被称为距Levenshtein距离(Levenshtein Distance),属于经典算法,常用方法使用递归,更好的方法是使用动态规划算法,以避免出现重叠子问题的反复计算,减 ...
编辑距离算法详解：Levenshtein Distance算法
算法基本原理:假设我们可以使用d[ i , j ]个步骤(可以使用一个二维数组保存这个值),表示将串s[ 1…i ] 转换为串t [ 1…j ]所需要的最少步骤个数,那么,在最基本的情况下,即在i等 ...
字符串相似度算法(编辑距离Levenshtein Distance)的应用场景
应用场景 DNA分析: 将DNA的一级序列如β-球蛋白基因的第一个外显子(Exon)转化为分子“结构图”,然后由所得“结构图”提取图的不变量,如分子连接性指数．以图的不变量作为自变量,再由相似度计算公 ...
Levenshtein distance 编辑距离算法
这几天再看 virtrual-dom,关于两个列表的对比,讲到了 Levenshtein distance 距离,周末抽空做一下总结. Levenshtein Distance 介绍在信息理论和计算 ...
Levenshtein Distance（编辑距离）算法与使用场景
前提已经很久没深入研究过算法相关的东西,毕竟日常少用,就算死记硬背也是没有实施场景导致容易淡忘.最近在做一个脱敏数据和明文数据匹配的需求的时候,用到了一个算法叫Levenshtein Distanc ...

随机推荐

在Tomcat下部属项目三种方式：
在Tomcat下部属项目三种方式: 1直接复制: 2. 通过配置虚拟路径的方式直接修改配置文件写到tomcat/conf/server.xml 找到<H ...
【Hibernate 8】Hibernate的调优方法：抓取策略
在上一篇博客中,介绍了Hibernate的缓存机制.合理的配置缓存,可以极大程度上优化Hibernate的性能.这篇博客,介绍另外一个调优方式:抓取策略. 一.什么是抓取策略抓取策略(fetchin ...
Windbg CLR基础小测《第六篇》
首先写一段代码如下: namespace ConsoleApplication3 { class Program { static void Main(string[] args) { Console ...
css3多列example
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
尝试自己建立以alpine 为基础的docker基础镜像和组件镜像
安装ubuntu14.04 然后 #获取root权限 sudo su #安装docker apt-get install docker #准备基础镜像 docker pull alpine docke ...
JQ仿select框
点击[cy_title]后弹出[cy_list]层,选中里面的元素把值赋给 [cy_title] 在[cy_list] 打开的时候,点击其他地方可以关闭: HTML: <div class=&q ...
Oracle定时器执行多线程
what里面加下面代码强制执行多线程 begin execute immediate 'alter session force parallel dml parallel 16'; pkg_s ...
su：认证失败
使用命令[su - root]切换用户,提示[su:认证失败] 原因:Ubuntu安装之后,root用户默认是被锁定的,不允许登录,也不允许su到root. 解决:重新设置密码在终端输入命令:sud ...
vim 文字插入
我们知道VIM中,普通的复制和粘贴都是YY和PP.那么怎么将vim以外的文件插入到vim编辑器中呢!这是个问题: 首先我们要选中想要插入的文字,如: 然后进入vim插入模式:SHIFT + Inser ...
SVN 管理
01. 源代码管理工具概述(PPT) ================================================================================ ...

		i	n	t	e	n	t	i	o	n
	0	1	2	3	4	5	6	7	8	9
e	1	1	2	3	3	4	5	6	7	8
x	2	2	2	3	4	4	5	6	7	8
e	3	3	3	3	3	4	5	6	7	8
c	4	4	4	4	4	4	5	6	7	8
u	5	5	5	5	5	5	5	6	7	8
t	6	6	6	5	6	6	5	6	7	8
i	7	6	7	6	6	7	6	5	6	7
o	8	7	7	7	7	7	7	6	5	6
n	9	8	7	8	8	7	8	7	6	5

		i	n	t	e	n	t	i	o	n
	0	1	2	3	4	5	6	7	8	9
e	1	1	2	3	3	4	5	6	7	8
x	2	2	2	3	4	4	5	6	7	8
e	3	3	3	3	3	4	5	6	7	8
c	4	4	4	4	4	4	5	6	7	8
u	5	5	5	5	5	5	5	6	7	8
t	6	6	6	5	6	6	5	6	7	8
i	7	6	7	6	6	7	6	5	6	7
o	8	7	7	7	7	7	7	6	5	6
n	9	8	7	8	8	7	8	7	6	5

扒一扒编辑距离（Levenshtein Distance）算法

扒一扒编辑距离（Levenshtein Distance）算法的更多相关文章

随机推荐

热门专题

		i	n	t	e	n	t	i	o	n
	0	1	2	3	4	5	6	7	8	9
e	1	1	2	3	3	4	5	6	7	8
x	2	2	2	3	4	4	5	6	7	8
e	3	3	3	3	3	4	5	6	7	8
c	4	4	4	4	4	4	5	6	7	8
u	5	5	5	5	5	5	5	6	7	8
t	6	6	6	5	6	6	5	6	7	8
i	7	6	7	6	6	7	6	5	6	7
o	8	7	7	7	7	7	7	6	5	6
n	9	8	7	8	8	7	8	7	6	5