字符串编辑距离(Levenshtein距离)算法
基本介绍
Levenshtein距离是一种计算两个字符串间的差异程度的字符串度量(string metric)。我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。俄罗斯科学家Vladimir Levenshtein于1965年提出了这一概念。
简单例子
从字符串“kitten”修改为字符串“sitting”只需3次单字符编辑操作,如下:
- sitten ( k -> s )
- sittin ( e -> i )
- sitting ( _ -> g )
因此“kitten”和“sitting”的Levenshtein距离为3。
实现思想
如何编程实现这一算法呢?许多人试图用矩阵来解释,但实际上矩阵是最终可视化的工具,配合理解“为什么”比较方便,但从矩阵却比较难想到“怎么做”。
我们试图找到“从字符串$A$修改到字符串$B$”这一问题的子解结构。当然反过来说“从字符串$B$修改到字符串$A$”和它是同一个问题,因为从$A$中删掉一个字符来匹配$B$,就相当于在$B$中插入一个字符来匹配$A$,这两个操作是可以互相转化的。
假设字符序列$A[1\ldots i]$、$B[1\ldots j]$分别是字符串$A$、$B$的前$i$、$j$个字符构成的子串,我们得到一个子问题是“从字符串$A[1\ldots i]$修改到字符串$B[1\ldots j]$”:$$\left[\begin{matrix}\begin{aligned}&A:&&A[1]&&A[2]&&\cdots&&A[i-2]&&A[i-1]&&A[i]\\\\&B:&&B[1]&&B[2]&&\cdots&&B[j-2]&&B[j-1]&&B[j]\end{aligned}\end{matrix}\right]$$
① 插入操作:
- 当将$A[1\ldots i]$修改成$B[1\ldots j-1]$需要操作数为$op_1$,那么我插入一个字符$A[i']=B[j]$到$A[i]$和$A[i+1]$之间,用以匹配$B[j]$,于是$A[1\ldots i]$修改到$B[1\ldots j]$所需操作数为$op_1+1$。$$\left[\begin{matrix}\begin{aligned}&&\cdots&&\color{Red}{A[i-2]}&&\color{Red}{A[i-1]}&&\mathbf{\color{Red}{A[i]}}&&\mathbf{\color{Blue}{A[i']}}&&\\\\&&\cdots&&\color{Red}{B[j-2]}&&\mathbf{\color{Red}{B[j-1]}}&&\mathbf{\color{Blue}{B[j]}}&&\phi&&\end{aligned}\end{matrix}\right]$$
② 删除操作:
- 当将$A[1\ldots i-1]$修改成$B[1\ldots j]$需要操作数为$op_2$,那么我删掉字符$A[i]$也可以$op_2+1$的操作数使两个子字符串匹配:$$\left[\begin{matrix}\begin{aligned}&&\cdots&&\color{Red}{A[i-2]}&&\mathbf{\color{Red}{A[i-1]}}&&\mathbf{\color{Blue}{\phi}}&&\\\\&&\cdots&&\color{Red}{B[j-2]}&&\color{Red}{B[j-1]}&&\mathbf{\color{Red}{B[j]}}&&\end{aligned}\end{matrix}\right]$$
③ 修改操作:
- 如果$A[1\ldots i-1]$修改成$B[1\ldots j-1]$所需操作数为$op_3$的话,我将字符$A[i]$替换成$A[i']=B[j]$,就可以$op_3+1$的操作数完成:$$\left[\begin{matrix}\begin{aligned}&&\cdots&&\color{Red}{A[i-2]}&&\mathbf{\color{Red}{A[i-1]}}&&\mathbf{\color{Blue}{A[i']}}&&\\\\&&\cdots&&\color{Red}{B[j-2]}&&\mathbf{\color{Red}{B[j-1]}}&&\mathbf{\color{Blue}{B[j]}}&&\end{aligned}\end{matrix}\right]$$
- 但如果此时字符$A[i]==B[j]$的话,则不需要进行修改操作,操作数仍为$op_3$。
综上所述,我们将字符串$A[1\ldots i]$修改成字符串$B[1\ldots j]$所需操作为$min\{op_1+1,\ op_2+1,\ op_3+1_{(a_i\neq b_i)}\}$,其中$1_{(a_i\neq b_i)}$代表当$a_i\neq b_i$时取值$1$,否则取值为$0$。
数学定义
数学上,我们定义两个字符串$A$和$B$间的Levenshtein距离为$lev_{A,\ B}(a,\ b)$,其中$a$、$b$分别为字符串$A$、$B$的长度,而$$lev_{A,\ B}(i,\ j)=\left\{\begin{matrix}\begin{aligned}&i&&,\ j=0\\&j&&,\ i=0\\&min\left\{\begin{matrix}lev_{a,\ b}(i,\ j-1)+1\\lev_{a,\ b}(i-1,\ j)+1\\lev_{a,\ b}(i-1,\ j-1)+1_{(a_i\neq b_i)}\end{matrix}\right.&&,\ otherwise\end{aligned}\end{matrix}\right.$$
更多请参考 Wikipedia - Levenshtein_distance。
C++代码
有了状态转移方程,我们就可以愉快地DP了,时间复杂度$O(MN)$,空间复杂度$O(MN)$。
#include <stdio.h>
#include <string.h>
#include <algorithm>
using std::min;
int lena, lenb;
char a[], b[];
void read() {
scanf("%s%s", a, b);
lena = strlen(a);
lenb = strlen(b);
} int dp[][];
void work() {
for(int i=; i<=lena; i++) dp[i][] = i;
for(int j=; j<=lenb; j++) dp[][j] = j;
for(int i=; i<=lena; i++)
for(int j=; j<=lenb; j++)
if(a[i-]==b[j-])
dp[i][j] = dp[i-][j-];
else
dp[i][j] = min(dp[i-][j-], min(dp[i][j-], dp[i-][j]))+;
printf("%d\n", dp[lena][lenb]);
} int main() {
read();
work();
return ;
}
几个小优化
1. 如果满足$A[i]==B[j]$(下标从$1$开始),实际上是可以直接取$lev(i,\ j)=lev(i-1,\ j-1)$的。因为此时字符相同是不需要任何编辑操作的。这一优化也可以从上文转移方程中构造不等关系得出。
2. 如果使用滚动数组,则空间复杂度可以降到$O(2*max\{M,\ N\})$。但也可以通过保存$lev(i-1,\ j-1)$来把空间复杂度降到$O(max\{M,\ N\})$,如下:
int dp[];
void work() {
for(int j=; j<=lenb; j++) dp[j] = j;
int t1, t2;
for(int i=; i<=lena; i++) {
t1 = dp[]++;
for(int j=; j<=lenb; j++) {
t2 = dp[j];
if(a[i-]==b[j-])
dp[j] = t1;
else
dp[j] = min(t1, min(dp[j-], dp[j]))+;
t1 = t2;
}
}
printf("%d\n", dp[lenb]);
}
以上即为Levenshtein距离算法的基本介绍,如果您喜欢,请点个推荐吧~如果您有宝贵意见,欢迎在下方评论区提出哦~
本文基于知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议发布,欢迎引用、转载或演绎,但是必须保留本文的署名BlackStorm以及本文链接http://www.cnblogs.com/BlackStorm/p/5400809.html,且未经许可不能用于商业目的。如有疑问或授权协商请与我联系。
字符串编辑距离(Levenshtein距离)算法的更多相关文章
- Levenshtein Distance莱文斯坦距离算法来计算字符串的相似度
Levenshtein Distance莱文斯坦距离定义: 数学上,两个字符串a.b之间的莱文斯坦距离表示为levab(|a|, |b|). levab(i, j) = max(i, j) 如果mi ...
- Levenshtein字符串距离算法介绍
Levenshtein字符串距离算法介绍 文/开发部 Dimmacro KMP完全匹配算法和 Levenshtein相似度匹配算法是模糊查找匹配字符串中最经典的算法,配合近期技术栏目关于算法的探讨,上 ...
- Levenshtein Distance算法(编辑距离算法)
编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...
- 字符串相似度算法——Levenshtein Distance算法
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...
- 字符串相似度算法-LEVENSHTEIN DISTANCE算法
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...
- 51nod 1183 - 编辑距离 - [简单DP][编辑距离问题][Levenshtein距离问题]
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1183 编辑距离,又称Levenshtein距离(也叫做Edi ...
- 动态规划 001 - 编辑距离(Levenshtein Distance)问题
问题 字符串的编辑距离也被称为距Levenshtein距离(Levenshtein Distance),属于经典算法,常用方法使用递归,更好的方法是使用动态规划算法,以避免出现重叠子问题的反复计算,减 ...
- 字符串编辑距离(Edit Distance)
一.问题描述定义字符串编辑距离(Edit Distance),是俄罗斯科学家 Vladimir Levenshtein 在 1965 年提出的概念,又称 Levenshtein 距离,是指两个字符串之 ...
- 编辑距离及其动态规划算法(Java代码)
编辑距离概念描述 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.一般情况下编辑操作包括: 将一个字符替换成另一个字符: 插入一个字符: 删除一个字 ...
随机推荐
- Dreamweaver 扩展开发:文档路径等信息的处理
//browseFile(fieldToStoreURL){ //getFullPath(filePathURL){ //getSimpleFileName() { //fixUpPath(docUR ...
- nginx源码分析之hash的实现
nginx实现了自己的hash数据结构,正如数据结构中讲述的那样,nginx用开放链表法解决冲突,不过不同的是一旦一个hash表被初始化后就不会被修改,即插入和删除,只进行查询操作,所以nginx通过 ...
- CRL快速开发框架系列教程四(删除数据)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
- HTML5 学习总结(一)——HTML5概要与新增标签
一.HTML5概要 1.1.为什么需要HTML5 HTML4陈旧不能满足日益发展的互联网需要,特别是移动互联网.为了增强浏览器功能Flash被广泛使用,但安全与稳定堪忧,不适合在移动端使用(耗电.触摸 ...
- Asp.net Core 通过 Ef Core 访问、管理Mysql
本文地址:http://www.cnblogs.com/likeli/p/5910524.html 环境 dotnet Core版本:1.0.0-preview2-003131 本文分为Window环 ...
- CSS3 值得称赞新特性
Html5和CSS3相信大家现在都已不陌生了吧,但CSS3哪些新特性值得我们去称赞呢? 首先还是让大家来看几张效果图,相信大家看到这些效果图,肯定会说这些效果只用CSS是如何实现的呢? 1.3D正方形 ...
- [Tool] Open Live Writer 插件更新
最新插件下载地址:Memento.OLW_V1.0.0.2.7z 零.历史更新记录 2016.11.24 1. 修正 cnblog 语法高亮中的 SQL.Perl 语法高亮异常 下载地址:Mement ...
- [Winform] DataGridView 总结(FAQ)
Q1. 如何使单元格不可编辑? A:设置 ReadOnly 属性,可以设置的对象包括 DataGridViewRow(行).DataGridViewColumn(列).DataGridViewCel ...
- windows7 x64下maven安装和配置
http://maven.apache.org/download.cgi下载maven 环境配置 验证配置是否成功 本地仓库配置 这是原来的配置文件: 更改为: link 离线安装 eclipse m ...
- WCF入门教程2——创建第一个WCF程序
本节目标 掌握接口 理解契约式编程 创建宿主程序 创建客户端程序访问服务 什么是接口 认识一下接口 必须知道的接口特性 接口不可以被实例化(常作为类型使用) 实现类必须实现接口的所有方法(抽象类除外) ...