Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

算法实现原理图解:

a.首先是有两个字符串,这里写一个简单的 abc 和 abe

b.将字符串想象成下面的结构。

A 处 是一个标记,为了方便讲解,不是这个表的内容。

  abc a b c
abe 0 1 2 3
a 1 A处    
b 2      
e 3      

c.来计算 A 处 出得值

它的值取决于:左边的 1、上边的 1、左上角的 0。

按照 Levenshtein distance 的意思:

上面的值加 1 ,得到 1+1=2 ,

左面的值加 1 ,得到 1+1=2 ,

左上角的值根据字符是否相同,相同加 0 ,不同加 1 。A 处由于是两个 a 相同,左上角的值加 0 ,得到 0+0=0 。

然后从我们上面计算出来的 2,2,0 三个值中选取最小值,所以 A 处的值为 0 。

d.于是表成为下面的样子

  abc a b c
abe 0 1 2 3
a 1 0    
b 2 B处    
e 3      

在 B 处 会同样得到三个值,左边计算后为 3 ,上边计算后为 1 ,在 B 处 由于对应的字符为 a、b ,不相等,所以左上角应该在当前值的基础上加 1 ,这样得到 1+1=2 ,在(3,1,2)中选出最小的为 B 处的值。

e.于是表就更新了

  abc a b c
abe 0 1 2 3
a 1 0    
b 2 1    
e 3 C处    

C 处 计算后:上面的值为 2 ,左边的值为 4 ,左上角的:a 和 e 不相同,所以加 1 ,即 2+1 ,左上角的为 3 。

在(2,4,3)中取最小的为 C 处的值。

f.于是依次推得到

    a b c
  0 1 2 3
a 1 A处 0 D处 1 G处 2
b 2 B处 1 E处 0 H处 1
e 3 C处 2 F处 1 I处 1

I 处: 表示 abc 和 abe 有1个需要编辑的操作( c 替换成 e )。这个是需要计算出来的。

同时,也获得一些额外的信息:

A处: 表示a      和a       需要有0个操作。字符串一样

B处: 表示ab    和a       需要有1个操作。

C处: 表示abe  和a       需要有2个操作。

D处: 表示a      和ab     需要有1个操作。

E处: 表示ab    和ab     需要有0个操作。字符串一样

F处: 表示abe  和ab     需要有1个操作。

G处: 表示a      和abc   需要有2个操作。

H处: 表示ab    和abc   需要有1个操作。

I处: 表示abe   和abc    需要有1个操作。

g.计算相似度

先取两个字符串长度的最大值 maxLen,用 1-(需要操作数 除 maxLen),得到相似度。

例如 abc 和  abe  一个操作,长度为 3 ,所以相似度为 1-1/3=0.666 。

最近需要对文本内容进行对比计算相似度,找了很久还真的让我找到个现成的模块 python-Levenshtein ,这个模块用法直接用help看吧,我主要用到里面的distance和ratio,其它的暂时还不知道有什么功能。

字符串相似度算法-LEVENSHTEIN DISTANCE算法的更多相关文章

  1. 字符串相似度算法——Levenshtein Distance算法

    Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一 ...

  2. Levenshtein Distance算法(编辑距离算法)

    编辑距离 编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符, ...

  3. Magic Number(Levenshtein distance算法)

    Magic Number Time Limit:1000MS     Memory Limit:65536KB     64bit IO Format:%I64d & %I64u Submit ...

  4. 字符串相似度算法(编辑距离算法 Levenshtein Distance)(转)

    在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录. 据百度百科介绍: 编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个 ...

  5. 字符串相似度算法(编辑距离算法 Levenshtein Distance)

    在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录.据百度百科介绍:编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串 ...

  6. 用C#实现字符串相似度算法(编辑距离算法 Levenshtein Distance)

    在搞验证码识别的时候需要比较字符代码的相似度用到"编辑距离算法",关于原理和C#实现做个记录. 据百度百科介绍: 编辑距离,又称Levenshtein距离(也叫做Edit Dist ...

  7. [转]字符串相似度算法(编辑距离算法 Levenshtein Distance)

    转自:http://www.sigvc.org/bbs/forum.php?mod=viewthread&tid=981 http://www.cnblogs.com/ivanyb/archi ...

  8. 编辑距离算法详解:Levenshtein Distance算法

    算法基本原理:假设我们可以使用d[ i , j ]个步骤(可以使用一个二维数组保存这个值),表示将串s[ 1…i ] 转换为 串t [ 1…j ]所需要的最少步骤个数,那么,在最基本的情况下,即在i等 ...

  9. 扒一扒编辑距离(Levenshtein Distance)算法

    最近由于工作需要,接触了编辑距离(Levenshtein Distance)算法.赶脚很有意思.最初百度了一些文章,但讲的都不是很好,读起来感觉似懂非懂.最后还是用google找到了一些资料才慢慢理解 ...

随机推荐

  1. Java高并发之设计模式

    本文主要讲解几种常见并行模式, 具体目录结构如下图. 单例 单例是最常见的一种设计模式, 一般用于全局对象管理, 比如xml配置读写之类的. 一般分为懒汉式, 饿汉式. 懒汉式: 方法上加synchr ...

  2. ReentrantLock实现原理分析

    ReentrantLock主要利用CAS+CLH队列来实现.它支持公平锁和非公平锁,两者的实现类似. CAS:Compare and Swap,比较并交换.CAS有3个操作数:内存值V.预期值A.要修 ...

  3. Android快速实现二维码扫描--Zxing

    Android中二维码扫描的最常用库是zxing和zbar,zxing项目地址为https://github.com/zxing/zxing,目前还有多个人在维护.zbar主要用C来写的,对速度有要求 ...

  4. Docker的基本组成

    Docker主要有以下几部分组成:Docker Client 客户端Docker daemon 守护进程Docker Image 镜像Docker Container 容器Docker Registr ...

  5. Jenkins : 安装 master 和 slave

    目录 安装 master 安装 slave 设置 master 与 slave 的通信方式 添加 slave 配置 在 salve 上安装 jre 安装并配置 Jenkins salve Jenkin ...

  6. 通过 URL 打开 Activity

    为每个 Activity 绑定一个 url 可以方便的让第三方 app 直接打开这些 Activity.也可以方便在 app 内部进行页面跳转,解耦. 背景 举一个常见的案例,假设我们有个产品 A,产 ...

  7. Python和Java编程题(一)

    今天偶尔看到一个博客有贴了五十个编程题,决定以后两天左右做一道题 题目来源:http://blog.sina.com.cn/s/blog_60fafdda0100wb21.html 1.题目 一个数如 ...

  8. 改BUG方法

    ---恢复内容开始--- 今天改了半天参数,后来发现原来是表设置错了,于是决定总结出遇到BUG时的方法,等下次再遇到BUG时,过一遍每个方法就会减少解决BUG的时间,话不多说,写 ①检查表.数据库是否 ...

  9. 操作Linux系统环境变量的几种方法

    一.使用environ指针输出环境变量 代码如下: #include<stdio.h> #include<string.h> #define MAX_INPUT 20 /* 引 ...

  10. windows上使用tensorboard

    因为我的环境变量设置的不是python3.5,所以走了一些弯路. 启动tensorboard后,graphs里总是什么都没有 最后再stackoverflow里找到答案 https://stackov ...