1. 什么是编辑距离?

编辑距离（Edit Distance），又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

举个例子，给定 2 个字符串str_a=“yes”, str_b=“yeah”. 编辑距离是将 str_a 转换为 str_b 的最少操作次数，操作只允许如下 3 种：

插入一个字符，例如：abc -> ab
删除一个字符，例如：ab -> abc
替换一个字符，例如：abc -> abd

那么从str_a到str_b的转换过程总共需要两步：yes > yeas > yeah 或者 yes > yea > yeah，所以str_a和str_b的编辑距离为2。

2. 如何计算编辑距离？

假设字符串a, 共m位，从a[1]到a[m], 字符串b, 共m位, 从b[1]到b[m]. 用二维数组D来保存由a向b的编辑距离，其中D[i][j]表示字符串a[1]-a[i]转换为b[1]-b[i]的编辑距离.

2.1 递归算法

递归的思想需要可以将问题拆解，假设a[i]和b[j]分别是字符串a和b的最后一位，那么要把问题拆解，有三种选择：

a[i-1], b[j]，即用a[1:i-1]继续和b[1:j]比较，删除了a[i]，需要额外一步代价；
a[i-1], b[j-1]，即用a[1:i-1]继续和b[1:j-1]比较，如果a[i]和b[j]相等，那么无需额外代价，否则需要额外一步代价将a[i]修改为b[j]；
a[i], b[j-1]，即用a[1:i]继续和b[1:j-1]比较，删除了b[j]，需要额外一步代价；

换一种说法，也就是说具体要拆解为哪一种，需要考虑a[i]和b[j]的比值，以及这三种方法的代价。即如下递归规律：

当a[i]等于b[j]时，比如 abc和bbc，那么D[i][j] = D[i-1][j-1], 即等于ab和bb的编辑距离；
当a[i]不等于b[j]时，D[i][j]等于如下3项的最小值：
1. D[i-1][j] + 1，即删除a[i]，比如abcd -> abc的编辑距离 = abc -> abc 的编辑距离 + 1
2. D[i][j-1] + 1，即插入b[j]，比如ab -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1
3. D[i-1][j-1] + 1，将a[i]替换为b[j]，比如abd -> abc 的编辑距离 = abc -> abc 的编辑距离 + 1

那么递归边界如何设定呢？

递归边界就是a[1:i]或者b[1:j]'为空的时候，即：

a[i][0] = i, b字符串为空，那么需要将a[1]-a[i]全部删除，所以编辑距离为i

a[0][j] = j, a字符串为空，那么需要向a插入b[1]-b[j]，所以编辑距离为j

Python代码:

def recursive_edit_distance(str_a, str_b):

  if len(str_a) == 0:

    return len(str_b)

  elif len(str_b) == 0:

    return len(str_a)

  elif str_a[len(str_a)-1] == str_b[len(str_b)-1]:

    return recursive_edit_distance(str_a[0:-1], str_b[0:-1])

  else:

    return min([

      recursive_edit_distance(str_a[:-1], str_b),

      recursive_edit_distance(str_a, str_b[:-1]),

      recursive_edit_distance(str_a[:-1], str_b[:-1])

    ]) + 1

str_a = "yes"

str_b = "yeah"

print(recursive_edit_distance(str_a, str_b))

# output is : 2

算法分析：该算法逻辑清晰，可读性较高，但是对于计算机而言却很不友好，时间复杂度高，随字符串长度呈指数级增长，而且递归算法的通病就是调用栈太深的时候，需要占用较多计算机资源。

2.2 动态规划

如果熟悉动态规划的同学，从上边的思路可以很容易推理出动态规划的递推公式：

if a[i] == b[j]:

    edit_distance(a[i], b[j]) = edit_distance(a[i-1], b[j-1])

if a[i] != b[j]:

    edit_distance(a[i], b[j]) = MIN (

        edit_distance(a[i-1], b[j]) + 1,   # 从a中删除a[i]

        edit_distance(a[i], b[j-1]) + 1,  # 向a中插入b[j]

        edit_distance(a[i-1], b[j-1]) + 1  # 将a[i]修改为b[j]

    )

转换为Python，也就是用二维数组D来记录从a向b的转换过程：

def edit_distance(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

# 初始化dp矩阵

  dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]

# 当a为空，距离和b的长度相同

  for i in range(len(str_b) + 1):

    dp[i][0] = i

# 当b为空，距离和a和长度相同

  for j in range(len(str_a) + 1):

    dp[0][j] = j

# 递归计算

  for i in range(1, len(str_b) + 1):

    for j in range(1, len(str_a) + 1):

      dp[i][j] = dp[i-1][j-1]

      if str_a[j-1] != str_b[i-1]:

        dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1

  return dp[len(str_b)][len(str_a)]

str_a = "yes"

str_b = "yeah"

print(edit_distance(str_a, str_b))

# output is : 2

2.3 动态规划, 优化空间复杂度

上边的算法中用二维数组来存储从a到b的距离，从递推公式来看，其实每一步dp[i][j]的计算只依赖a[i]和b[j]是否相等以及矩阵中的三个值：

左边的值，left = dp[i-1][j]
左上角的值，left_up = dp[i-1][j-1]
上边的值，up = dp[i][j-1]

其实我们可以用一维数组来达到上述目的，具体可以看Python代码：

def edit_distance(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

  dp = [x for x in range(len(str_b) + 1)]

  for i in range(1, len(str_a) + 1):

    # 注意每次left_up和dp[0]的初始化

    left_up = i - 1

    dp[0] = i # 当前轮最左的left

    for j in range(1, len(str_b) + 1):

      up= dp[j]  # j是上一轮的值，即up

      left = dp[j-1]  # j-1是当前轮的值，即left

      if str_a[i-1] == str_b[j-1]:

        dp[j] = left_up

      else:

        dp[j] = min([left, up, left_up]) + 1

      left_up = up # 每移动一步，上一轮的up就变成了left_up

  return dp[len(str_b)]

str_a = "yes"

str_b = "yeah"

print(edit_distance(str_a, str_b))

# output is : 2

2.4 打印编辑过程

def edit_distance_Omn(str_a, str_b):

  if str_a == str_b:

    return 0

  if len(str_a) == 0:

    return len(str_b)

  if len(str_b) == 0:

    return len(str_a)

  dp = [[0 for _ in range(len(str_a) + 1)] for _ in range(len(str_b) + 1)]

  for i in range(len(str_b) + 1):

    dp[i][0] = i

  for j in range(len(str_a) + 1):

    dp[0][j] = j

  for i in range(1, len(str_b) + 1):

    for j in range(1, len(str_a) + 1):

      dp[i][j] = dp[i-1][j-1]

      if str_a[j-1] != str_b[i-1]:

        dp[i][j] = min([dp[i-1][j-1], dp[i-1][j], dp[i][j-1]]) + 1

  #打印完整路径矩阵（这一步非必要）

  for i in range(len(str_b) + 1):

    for j in range(len(str_a) + 1):

      print dp[i][j],

    print

  # 准备倒着查询编辑路径，从右下角开始

  i , j = len(str_b), len(str_a)

  op_list = []  # 记录编辑操作

  while i > 0 and j > 0:

    if dp[i][j] == dp[i-1][j-1]:

      op_list.append("keep [ {} ]".format(str_b[i-1]))

      i, j = i-1, j-1

      continue

    if dp[i][j] == dp[i-1][j]  + 1:

      op_list.append("remove [ {} ]".format(str_b[i-1]))

      i, j = i-1, j

      continue

    if dp[i][j] == dp[i-1][j-1] + 1:

      op_list.append("change [ {} ] to [ {} ]".format(str_b[i-1], str_a[j-1]))

      i, j = i-1, j-1

      continue

    if dp[i][j] == dp[i][j-1] + 1:

      op_list.append("insert [ {} ]".format(str_a[j-1]))

      i, j = i, j-1

  for i in range(len(op_list)):

    print op_list[len(op_list)-i-1]

  return dp[len(str_b)][len(str_a)]

str_a = "yesxxxxxx"

str_b = "yeahxxxxxhh"

print(edit_distance(str_a, str_b))

输出

0 1 2 3 4 5 6 7 8 9

1 0 1 2 3 4 5 6 7 8

2 1 0 1 2 3 4 5 6 7

3 2 1 1 2 3 4 5 6 7

4 3 2 2 2 3 4 5 6 7

5 4 3 3 2 2 3 4 5 6

6 5 4 4 3 2 2 3 4 5

7 6 5 5 4 3 2 2 3 4

8 7 6 6 5 4 3 2 2 3

9 8 7 7 6 5 4 3 2 2

10 9 8 8 7 6 5 4 3 3

11 10 9 9 8 7 6 5 4 4

keep [ y ]

keep [ e ]

change [ a ] to [ s ]

change [ h ] to [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

keep [ x ]

remove [ h ]

remove [ h ]

4

【ZH奶酪】如何用Python实现编辑距离？的更多相关文章

【ZH奶酪】为什么Python不需要函数重载？
函数重载的作用是什么? 函数重载主要是为了解决两个问题可变参数类型可变参数个数另外,一个基本的设计原则是,仅仅当两个函数除了参数类型和参数个数不同以外,其功能是完全相同的,此时才使用函数重载,如 ...
ZH奶酪：【Python】random模块
Python中的random模块用于随机数生成,对几个random模块中的函数进行简单介绍.如下:random.random() 用于生成一个0到1的随机浮点数.如: import random ra ...
如何用python“优雅的”调用有道翻译？
前言其实在以前就盯上有道翻译了的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争”的过程! 当然,本文仅 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
如何用python下载一张图片
如何用python下载一张图片这里要用到的主要工具是requests这个工具,需要先安装这个库才能使用,该库衍生自urllib这个库,但是要比它更好用.多数人在做爬虫的时候选择它,是个不错的选择. ...
ZH奶酪：Ubuntu 14.04配置LAMP（Linux、Apache、MySQL、PHP）
ZH奶酪:Ubuntu 14.04安装LAMP(Linux,Apache,MySQL,PHP) 之前已经介绍过LAMP的安装,这边文章主要讲解一下LAMP的配置. 1.配置Apache (1)调整Ke ...
[置顶] 如何用PYTHON代码写出音乐
如何用PYTHON代码写出音乐什么是MIDI 博主本人虽然五音不全,而且唱歌还很难听,但是还是非常喜欢听歌的.我一直在做这样的尝试,就是通过人工智能算法实现机器自动的作词和编曲(在这里预告下,通过深 ...
以下三种下载方式有什么不同？如何用python模拟下载器下载？
问题始于一个链接https://i1.pixiv.net/img-zip-...这个链接在浏览器打开,会直接下载一个不完整的zip文件但是,使用下载器下载却是完整文件而当我尝试使用python下载 ...
小姐姐带你一起学：如何用Python实现7种机器学习算法（附代码）
小姐姐带你一起学:如何用Python实现7种机器学习算法(附代码) Python 被称为是最接近 AI 的语言.最近一位名叫Anna-Lena Popkes的小姐姐在GitHub上分享了自己如何使用P ...

随机推荐

zoj1716简单的二维树状数组
问一个矩形框在一个大矩形内最多能围几个给定的点都不用排序,先把所有的点加入树状数组,再直接枚举大矩形的每个格子即可 #include <iostream> #include <st ...
python 全栈开发，Day130(多玩具端的遥控功能, 简单的双向聊天,聊天记录存放数据库,消息提醒,玩具主动发起消息,玩具主动发起点播)
先下载github代码,下面的操作,都是基于这个版本来的! https://github.com/987334176/Intelligent_toy/archive/v1.3.zip 注意:由于涉及到 ...
linux下如何使用gdb调试
gdb是linux下非常好用的一个调试工具,虽然它是命令行模式的调试工具,但是它的功能强大到你无法想象,这里简单介绍下gdb下常用的命令. 首先编译生成可执行文件(这里的test.c是一个简单的求前n ...
mybatis中的查询语句in用法的相关问题
在开发的时候,mybatisl中使用in的时候会遇到一些问题,如果我们传的参数是String类型,以“,”来进行隔开的,例如:参数是0,1,2字符串,mybatis中的语句如下 <select ...
搬家通知博文地址(将博客搬到CSDN)
(为了确认是您本人在申请搬家,请在原博客发表一篇标题为<将博客搬至CSDN>的文章,并将文章地址填写在上方的"搬家通知博文地址"中.)
Spring3.X jdk8 java.lang.IllegalArgumentException
异常提示: javax.servlet.ServletException: Servlet.init() for servlet springMVC threw exception org.apach ...
bozj 1823（未完成）
题意: 满汉全席是中国最丰盛的宴客菜肴,有许多种不同的材料透过满族或是汉族的料理方式,呈现在數量繁多的菜色之中.由于菜色众多而繁杂,只有极少數博学多闻技艺高超的厨师能够做出满汉全席,而能够烹饪出经过专 ...
POJ 2250 Compromise【LCS】+输出路径
题目链接:https://vjudge.net/problem/POJ-2250 题目大意:给出n组case,每组case由两部分组成,分别包含若干个单词,都以“#”当结束标志,要求输出最长子序列. ...
SQL server学习（四）T-SQL编程之事务、索引和视图
今天来分享下T-SQL高级编程中的事务.索引.视图,可以和之前的SQL server系列文章结合起来. 一.事务事务(TRANSACTION)是作为单个逻辑工作单元执行的一系列操作,这些操作作为一个 ...
[VB]常用函数
(一)类型转换类函数 . CType(X) [格式]: P=CBool(X) ' 将X转换为"布尔"(Boolean)类型 P=CByte(X) ' 将X转换为"字节&q ...

【ZH奶酪】如何用Python实现编辑距离？