LCS的全称为Longest Common Subsequence,用于查找两个字符串中的最大公共子序列,这里需要注意区分子序列与子串,所谓子序列,指的是从前到后,可以跳跃元素筛选,而字串则必须连续筛选。

例如AB##!C!@#E和AB123CC321E两个字符串,如果找最长公共字串,只能是AB;如果是找最长公共子列,则是ABCE。

还有一种变种的LCS,允许元素重复,这样找到的子列将会是ABCCE,但是这样回溯是比较麻烦的,一般只能得到序··列的长度。

下面我们先介绍基本LCS的算法,然后介绍其变体。

【基本LCS】

1.首先作如下约定

①设字符串a、b的索引从1开始,a的全长为xm,b的全长为yn。

②c[i][j]记录了a串1~i范围和b串1~j范围内的最长子串长度。

2.递推式

要求c[i][j],我们需要考虑a[i]和b[j]的关系。

①a[i]=b[j]:说明当前子列的末尾是a、b所共有,各退一步,就得到了上一次求得的公共子列长度,也就是c[i-1][j-1],显然两个序列仅相差了一个字符,因此c[i][j] = c[i-1][j-1]+1。

②a[i]≠b[j]:说明当前子列的长度在a或者b向后推进一个字符后并未变化,因为这个字符不公共,应该考虑去掉一个字符后的公共子列中较长的,也就是c[i][j] = max{c[i-1][j], c[i][j-1]}。

这样,我们就得到了完整的递推式,下面要解决的就是递推起点的参数。

不难发现,c[0][.]和c[.][0]都应该是0,这就是递推的起点。

3.编程实现

从c[1][1]一直处理到c[xm][yn]即可,需要注意的是字符索引从0开始,因此我们需要在c的索引基础上减一。

代码如下:

void LCS(string a, string b){
int xm = a.length();
int yn = b.length();
vector<vector<int> > c(xm + 1);
for(int x = 0; x <= xm; x++){
c[x].resize(yn + 1);
}
for(int x = 1; x <= xm; x++) c[x][0] = 0;
for(int y = 1; y <= yn; y++) c[0][y] = 0;
for(int x = 1; x <= xm; x++)
for(int y = 1; y <= yn; y++){
if(a[x-1] == b[y-1]){
c[x][y] = c[x-1][y-1] + 1;
}else if(c[x][y-1] >= c[x-1][y]){
c[x][y] = c[x][y-1];
}else{
c[x][y] = c[x-1][y];
}
}
printf("LCS Length:%d\n",c[xm][yn]);
}

这样仅仅能得到序列的长度,如果要得到子列,需要回溯,从a和b的最后一个字符开始,根据字符关系查表c来确定是否是子列中的元素。因为这样得到的是倒序,因此需要每次插入到字符串的头部。

    string res = "";
int i = xm, j = yn;
while(i >= 1 && j >= 1){
if(a[i-1] == b[j-1]){
res.insert(res.begin(),a[i-1]);
i--;
j--;
}else if(c[i][j-1] >= c[i-1][j]) j--;
else i--;
}
cout << res << endl;

【变种LCS】

如上文所述,有时候需要考虑元素重复的情况,例如PAT上的一道题1045.
Favorite Color Stripe (30)
就要求计算元素可重复的最长子列,为了达到这个目的,只需要对算法稍加修改,无论什么情况,均取c[i-1][j]、c[i][j-1]和c[i-1][j-1]中的最大值,并且如果发现a、b当前字串的末尾相同,则在最大值基础上+1,这样就可以重复记录了。

这样做的原因是,原来每次碰到相同的都去找去掉后的+1,这样即使碰到多次重复也不会造成累加,因为我们只考虑了对角线。而如果是在左、对角、上三个方向寻找最大的,则会不断累加。把两个字符串看成一张表,横着为串b,竖着为串a,假设此时比较的是a中的'x',而b中有多个'x',如果是普通LCS,对于每个‘x'都会去找对角线,这样不会造成累加,而变种LCS会找到左边已经累加过的再累加,因此就允许了重复计数。

这样处理的问题在于无法通过回溯得到序列,而只能拿到长度。

void LCS_changed(string a, string b){
int xm = a.length();
int yn = b.length();
vector<vector<int> > c(xm + 1);
for(int x = 0; x <= xm; x++){
c[x].resize(yn + 1);
}
for(int x = 1; x <= xm; x++) c[x][0] = 0;
for(int y = 1; y <= yn; y++) c[0][y] = 0;
for(int x = 1; x <= xm; x++)
for(int y = 1; y <= yn; y++){
int max = c[x-1][y-1];
if(c[x][y-1] > max) max = c[x][y-1];
if(c[x-1][y] > max) max = c[x-1][y];
if(a[x-1] == b[y-1]){
c[x][y] = max + 1;
}else{
c[x][y] = max;
}
}
printf("LCS Length:%d\n",c[xm][yn]);
}

对LCS算法及其变种的初步研究的更多相关文章

  1. 所有不同的序列串-----LCS算法的变种

    今天遇到LEETCODE的第115题: Distinct Subsequences Given a string S and a string T, count the number of disti ...

  2. LCS算法

    转自:http://hzzy-010.blog.163.com/blog/static/79692381200872024242126/  好详细~~~也十分好理解~~~ 最长公共子序列问题(非连续的 ...

  3. iOS多线程的初步研究(六)

    iOS多线程的初步研究(六) iOS平台提供更高级的并发(异步)调用接口,让你可以集中精力去设计需完成的任务代码,避免去写与程序逻辑无关的线程生成.运行等管理代码.当然实质上是这些接口隐含生成线程和管 ...

  4. iOS多线程的初步研究3

    iOS多线程的初步研究(三) 弄清楚NSRunLoop确实需要花时间,这个类的概念和模式似乎是Apple的平台独有(iOS+MacOSX),很难彻底搞懂(iOS没开源,呜呜). 官网的解释是说run ...

  5. iOS多线程的初步研究1

    iOS多线程的初步研究(一) 对于多线程的开发,iOS系统提供了多种不同的接口,先谈谈iOS多线程最基础方面的使用.产生线程的方式姑且分两类,一类是显式调用,另一类是隐式调用. 一.显示调用的类为NS ...

  6. iOS多线程的初步研究

    iOS多线程的初步研究(四) 理解run loop后,才能彻底理解NSTimer的实现原理,也就是说NSTimer实际上依赖run loop实现的. 先看看NSTimer的两个常用方法: + (NST ...

  7. <路径算法>哈密顿路径变种问题(2016华为软件精英挑战赛初赛)

    原创博客,转载请联系博主! 前言:几天前华为的这个软件精英(算法外包)挑战赛初赛刚刚落幕,其实这次是我第二次参加,只不过去年只入围到了64强(32强是复赛线),最后搞到了一个华为的一顶帽子(感谢交大l ...

  8. O(nlogn)LIS及LCS算法

    morestep学长出题,考验我们,第二题裸题但是数据范围令人无奈,考试失利之后,刻意去学习了下优化的算法 一.O(nlogn)的LIS(最长上升子序列) 设当前已经求出的最长上升子序列长度为len. ...

  9. LCS 算法实现

    动态规划算法 #include <iostream> #include <string.h> #include <algorithm> #include <m ...

随机推荐

  1. ●BZOJ 3926 [Zjoi2015]诸神眷顾的幻想乡

    题链: http://www.lydsy.com/JudgeOnline/problem.php?id=3926题解&&代码: 后缀自动机,Trie树 如果以每个叶子为根,所有的子串一 ...

  2. [Codeforces]849E Goodbye Souvenir

    又是一道比较新的模板题吧,即使是在Codeforces上小C还是贴了出来. Description 给定一个长度为n的序列a1~an,每个元素代表一种颜色.m次操作,每次操作为两种中的一种: 1 p ...

  3. 修改firefox的默认缩放比

    我们在使用firefox时,发现页面的缩放比只能一个一个手动调整,当跳转到新的页面时默认缩放比又还原了,这个时候又要重新调整,相当不方便. 下面介绍修改默认缩放比的方法: 首先,打开firefox,然 ...

  4. IP地址、子网掩码、网关、DNS服务器

    1. IP地址 IP是英文Internet Protocol的缩写,意思是"网络之间互连的协议",也就是为计算机网络相互连接进行通信而设计的协议.在因特网中,它是能使连接到网上的所 ...

  5. spring AOP的两种配置方式

    连接点(JoinPoint) ,就是spring允许你是通知(Advice)的地方,那可就真多了,基本每个方法的前.后(两者都有也行),或抛出异常是时都可以是连接点,spring只支持方法连接点.其他 ...

  6. Mysql锁机制--乐观锁 & 悲观锁

    Mysql 系列文章主页 =============== 从 这篇 文章中,我们知道 Mysql 并发事务会引起更新丢失问题,解决办法是锁.所以本文将对锁(乐观锁.悲观锁)进行分析. 第一部分 悲观锁 ...

  7. JavaScript数据结构和算法----队列

    前言 队列和栈很像,只是用了不同的原则.队列是遵循先进先出(FIFO)原则的一组有序的的项,队列在尾部添加新元素,从顶部移除元素.最新添加的元素必须必须排队在队列的,末尾.可以想象食堂排队买饭的样子. ...

  8. 设计模式之中介者模式(Mediator )

    中介者模式是关于数据交互的设计模式,该模式的核心是一个中介者对象,负责协调一系列对象之间的不同的数据请求,这一系列对象成为同事类.如房产中介(简直不想提它),买房的卖房的,租房的放租的都到房产中介那里 ...

  9. MFC多线程

    当前流行的Windows操作系统能同时运行几个程序(独立运行的程序又称之为进程),对于同一个程序,它又可以分成若干个独立的执行流,我们称之为线程,线程提供了多任务处理的能力.用进程和线程的观点来研究软 ...

  10. Spring + mybatis 集成

    具体项目可参照:https://github.com/LuoXiaoyi/springmvc 一.环境准备:Spring4.3.5 + Mybatis3.4.6 + Mybatis-Spring 1. ...