编辑距离及编辑距离算法(求字符的相似度) js版

编辑距离概念描述：

编辑距离，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

例如将kitten一字转成sitting：

sitten （k→s）
sittin （e→i）
sitting （→g）

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

问题：找出字符串的编辑距离，即把一个字符串s1最少经过多少步操作变成编程字符串s2，操作有三种，添加一个字符，删除一个字符，修改一个字符

解析：

首先定义这样一个函数——edit(i, j)，它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

显然可以有如下动态规划公式：

if i == 0 且 j == 0，edit(i, j) = 0
if i == 0 且 j > 0，edit(i, j) = j
if i > 0 且j == 0，edit(i, j) = i
if i ≥ 1 且 j ≥ 1 ，edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) }，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，f(i, j) = 1；否则，f(i, j) = 0。

举例：edit(4, 2)== min{ edit(4-1, 2) + 1, edit(4, 2-1) + 1, edit(4-1, 2-1) + f(4, 2) }

字符"abcd"到字符"ac"的编辑距离 == 字符"abcd"到字符"a"的编辑距离+1，字符"abc"到字符"ac"的编辑距离+1，字符"abc"到字符"a"的编辑距离+0或者1 （如果后面相等就为0，不相等为1）。

代码：


function editDistance(s1,s2) {
//s1[i]表示第一个字符的第i个字符
  var len1=s1.length,len2=s2.length;
  var d=[];
  var i,j;
  /*初始化二维数组，以及定义
   if i == 0 且 j == 0，edit(i, j) = 0
   if i == 0 且 j > 0，edit(i, j) = j
   if i > 0 且j == 0，edit(i, j) = i
   */

  for(i = 0;i <= len1;i++){
    d[i]=[];
    d[i][0] = i;
  }
  for(j = 0;j <= len2;j++){
    d[0][j] = j;
  }
  for(i = 1;i <= len1;i++){
    for(j = 1;j <= len2;j++) {
      var cost = s1[i-1] === s2[j-1] ? 0 : 1;
      var deletion = d[i-1][j] + 1; //删除动作
      var insertion = d[i][j-1] + 1; //增加动作
      var substitution = d[i-1][j-1] + cost; //替换字符，如果相同cost=0；不同cost=1
      d[i][j] = Math.min(deletion,insertion,substitution);
    }
  }
  return d;
}
function getchunkExec(s1,s2) {
  var chunkExec=[];
  var pre;
//生成增量指令 r：替换，a:增加，d删除
  function edit(d,i,j) {
    if(i===0&&j===0)return;

    if(i>0&&j>0&&d[i][j]>d[i-1][j-1]) {
      if(pre&&pre[0]==='r'){
        pre[1]=i-1;
        pre[2]=s2[j-1]+pre[2]
      }else{
        pre=['r',i-1,s2[j-1]]
        chunkExec.push(pre);
      }
      edit(d, i - 1, j - 1)
    }else if(j>0&&d[i][j]>d[i][j-1]){
      if(pre&&pre[0]==='a'){
        pre[1]=s2[j-1]+pre[1]
      }else{
        pre=['a',s2[j-1]]
        chunkExec.push(pre);
      }
      edit(d,i,j-1)
    }else if(i>0&&d[i][j]>d[i-1][j]){
      if(pre&&pre[0]==='d'){
        pre[1]=i-1;
      }else{
        pre=['d',i-1]
        chunkExec.push(pre);
      }
      edit(d,i-1,j)
    }else if(d[i][j]===d[i-1][j-1]) {
      if(pre&&pre[0]==='e'){
        pre[1]=i-1;
      }else{
        pre=['e',i-1]
        chunkExec.push(pre);
      }
      edit(d, i - 1, j - 1)
    }
  }
  var rect=editDistance(s1,s2);
  edit(rect,s1.length,s2.length)

  return chunkExec;
}
//s1 chunk更新
function chunkUpdate(s1,chunkExec){
  var arr=[]
  chunkExec.forEach(function (item) {
    if(item[0]==='r'){
      s1=s1.slice(0,item[1])
      arr.unshift(item[2])
    }else if(item[0]==='a'){
      arr.unshift(item[1])
    }else if(item[0]==='d'){
      s1=s1.slice(0,item[1])
    }else if(item[0]==='e'){
      arr.unshift(s1.slice(item[1]))
      s1=s1.slice(0,item[1])
    }
  })
  return arr.join('');

}

//定义两个字符
var s1="adsddsdsd",s2="abcd";
//生成增量包
var chunkExec=getchunkExec(s1,s2)
//解析增量包
var ns1=chunkUpdate(s1,chunkExec)

console.log(chunkExec);//增量包
console.log(s1,'=>',ns1,ns1===s2);//>abcd true

[ [ 'd', 4 ], [ 'e', 3 ], [ 'r', 1, 'bc' ], [ 'e', 0 ] ]
adsddsdsd => abcd true

编辑距离及编辑距离算法(求字符的相似度) js版的更多相关文章

【算法】字符串匹配之Z算法
求文本与单模式串匹配,通常会使用KMP算法.后来接触到了Z算法,感觉Z算法也相当精妙.在以前的博文中也有过用Z算法来解决字符串匹配的题目. 下面介绍一下Z算法. 先一句话讲清楚Z算法能求什么东西. 输 ...
51nod 1445 变色DNA （ Bellman-Ford算法求单源最短路径）
1445 变色DNA 基准时间限制:1 秒空间限制:131072 KB 分值: 40 难度:4级算法题有一只特别的狼,它在每个夜晚会进行变色,研究发现它可以变成N种颜色之一,将这些颜色标号为0,1 ...
C++迪杰斯特拉算法求最短路径
一:算法历史迪杰斯特拉算法是由荷兰计算机科学家狄克斯特拉于1959 年提出的,因此又叫狄克斯特拉算法.是从一个顶点到其余各顶点的最短路径算法,解决的是有向图中最短路径问题.迪杰斯特拉算法主要特点是以 ...
二维KMP - 求字符矩阵的最小覆盖矩阵 - poj 2185
Milking Grid Problem's Link:http://poj.org/problem?id=2185 Mean: 给你一个n*m的字符矩阵,让你求这个字符矩阵的最小覆盖矩阵,输出这个最 ...
poj 3565 uva 1411 Ants KM算法求最小权
由于涉及到实数,一定,一定不能直接等于,一定,一定加一个误差<0.00001,坑死了…… 有两种事物,不难想到用二分图.这里涉及到一个有趣的问题,这个二分图的完美匹配的最小权值和就是答案.为啥呢 ...
HDU-1233 还是畅通工程 (prim 算法求最小生成树)
prim 算法求最小生成树还是畅通工程 Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Oth ...
Dijkstra算法求单源最短路径
Description 在每年的校赛里,所有进入决赛的同学都会获得一件很漂亮的t-shirt.但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候,却是非常累的!所以现在他们想要寻找最短的从商店 ...
ZOJ Problem - 2588 Burning Bridges tarjan算法求割边
题意:求无向图的割边. 思路:tarjan算法求割边,访问到一个点,如果这个点的low值比它的dfn值大,它就是割边,直接ans++(之所以可以直接ans++,是因为他与割点不同,每条边只访问了一遍) ...
HDU 1269 迷宫城堡 tarjan算法求强连通分量
基础模板题,应用tarjan算法求有向图的强连通分量,tarjan在此处的实现方法为:使用栈储存已经访问过的点,当访问的点离开dfs的时候,判断这个点的low值是否等于它的出生日期dfn值,如果相等, ...

随机推荐

数字图像处理实验（8）：PROJECT 04-04，Highpass Filtering Using a Lowpass Image 标签：图像处理MATLAB 2017-05-25 0
实验要求: 高通滤波器可以通过1减去低通滤波器的传递函数得到. 使用公式计算可以的得到 . 实验代码: % PROJECT 04-04 Highpass Filtering Using a Lowp ...
Hibernate-Criteria
Hibernate Criteria简介一.Criteria接口的用途: 设计上可以灵活的根据criteria的特点进行查询条件的组装. CriteriaSpecification 接口是 Crit ...
[LintCode笔记了解一下]39.恢复旋转排序数组
思路: 1.需要O(n)的事件复杂度,所以多次循环不考虑 2.四步翻转法 -第一步,找到数组里最小的那个数字,因为是旋转排序数组,所以只要找到某个位置arr[i]>arr[i+1]的话,就找到了 ...
SQL之DCL
DCL(Data Control Language)数据库控制语言授权,角色控制等GRANT 授权REVOKE 取消授权 1)授权命令 grant,语法格式(SQL语句不区分大小写):Grant ...
Android sutdio单元测试简单使用步骤
1.简介单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证.比如一个函数,一个方法等 2.添加依赖 dependencies { testCompile 'junit: ...
Windows下配置Visualsvn Server时需要注意的几点事项
1配置用户组与用户用户组的权限高于用户的权限, 如果一个用户只有只读权限,同时被加入了拥有写权限的用户组中,此用户可以执行写操作. 2在Pre-commit hook下增加强制添加注释的钩子脚本 ...
Sharepoint2013搜索学习笔记之自定义结果显示模板(九)
搜索结果通过套用定义好的显示模板来展示结果,显示模板由js和html组成,我们可以通过修改显示模板,然后将修改好的显示模板跟搜索结果绑定起来,来修改搜索结果的显示效果,例子如下图: 修改前修改后第 ...
C# 文本输入限制类型，datagridview单元格输入验证
1.只能输入double类型 private void textBoxX6_KeyPress(object sender, KeyPressEventArgs e) { { //数字0~9所对应的ke ...
linux 建议锁和强制锁
作为APUE 14.3节的参考 linux是有强制锁的,但是默认不开启.想让linux支持强制性锁,不但在mount的时候需要加上-o mand,而且对要加锁的文件也需要设置相关权限. . ...
快速下载android源码
众所周知的原因,android源码被墙了,还好国内有不少镜像,这里使用清华提供的镜像. 以下内容转自: https://wiki.tuna.tsinghua.edu.cn/MirrorUsage/an ...

编辑距离及编辑距离算法(求字符的相似度) js版

编辑距离及编辑距离算法(求字符的相似度) js版的更多相关文章

随机推荐

热门专题