写在前面

在字符串处理当中,后缀树和后缀数组都是非常有力的工具。

其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料。

其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,

能够实现后缀树的很多功能而时间复杂度也不太逊色,并且,它比后缀树所占用的空间小很多。

可以说,在信息学竞赛中后缀数组比后缀树要更为实用!

因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法,

以及配合后缀数组的最长公共前缀数组的构造方法,最后结合一些例子谈谈后缀数组的应用。

What Is Suffix Array?

学习后缀数组需要认识几个概念:

子串

  字符串S的子串r[i..j],i<=j,表示S串中从i到j这一段,就是顺次排列r[i],r[i+1],...,r[j]形成的子串。

后缀

  后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r的从第i个字符开始的后缀表示为Suffix(i),

也就是Suffix(i)=S[i...len(S)-1] 。

后缀数组(SA[i]存放排名第i大的后缀首字符下标)

  后缀数组 SA 是一个一维数组,它保存1..n 的某个排列SA[1] ,SA[2] ,...,SA[n] ,

  并且保证Suffix(SA[i])<Suffix(SA[i+1]), 1<=i<n 。

也就是将S的n个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。

名次数组(rank[i]存放suffix(i)的优先级)

  名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的“名次”

   注:这个是排序的关键字~(这句话是我们排序的重点)

(我的理解):

sa[i]:保存的是S字符串的所有后缀在以字典序排序后,排在第i名的字符串在原来子串中的位置。

rank[i]:保存的是S字符串的所有后缀在以字典序排序后,原来的第i名现在排第几。

简单的说,后缀数组(SA)是“排第几的是谁?”,名次数组(RANK)是“你排第几?”。

容易看出,后缀数组和名次数组为互逆运算。我们只要算出了sa数组,就可以在O(n)的时间复杂度内算出rank数组。

height数组:height[i]保存的是suffix(i)和suffix(i-1)的最长公共前缀的长度。也就是排名相邻的两个后缀的最长公共前缀。

How To Build Suffix Array?

要构造Suffix Array,主要就是构造sa数组,rank数组和height数组。

首先来看一下如何构造sa数组:

构造sa数组的方法有三种:

1)倍增算法:O(nlongn)

2)DC3算法:O(n)

3)skew算法(不常用)

这里主要讲一下DC3算法:

DC3算法是一个优秀的线性算法!

很多人都认为DC3算法很复杂,其实也没多复杂,代码也就40多行,只是for循环多了点。

DC3算法:

1) 先将后缀分成两部分,然后对第一部分的后缀排序。

  字符的编号从0开始。

  将后缀分成两部分:

    第一部分是后缀k(k模3不等于0)

    第二部分是后缀k(k模3等于0)

2) 利用(1)的结果,对第二部分的后缀排序。
3) 将(1)和(2)的结果合并,即完成对所有后缀排序。

于是求出了所有后缀的排序,有什么用呢?主要是用于求它们之间的最长公共前缀(Longest Common Prefix,LCP)。

求出sa数组之后,根据rank[sa[i]]=i,rank数组自然也就能够在O(n)的时间内求出。

那我们如何快速的求出height数组呢?

令LCP(i,j)为第i小的后缀和第j小的后缀(也就是Suffix(SA[i])和Suffix(SA[j]))的最长公共前缀的长度,则有如下两个性质:

    1. 对任意i<=k<=j,有LCP(i,j) = min(LCP(i,k),LCP(k,j))

    2. LCP(i,j)=min(i<k<=j)(LCP(k-1,k))

令height[i]=LCP(i-1,i),即height[i]代表第i小的后缀与第i-1小的后缀的LCP,则求LCP(i,j)就等于求height[i+1]~height[j]之间的RMQ,套用RMQ算法就可以了,复杂度是预处理O(nlogn),查询O(1).

这样一来我们就将height数组也求出来了。

下面用草稿纸来模拟一遍:

例如:
aabaaaab

总共有n=8个后缀:

1: aabaaaab

2: abaaaab

3: baaaab

4: aaaab

5: aaab

6: aab

7: ab

8: b

按照字典序排序后

sa[ 1 ] = 4 aaaab
sa[ 2 ] =  5 aaab
sa[ 3 ] =  6 aab
sa[ 4 ] =  1 aabaaaab
sa[ 5 ] =  7 ab
sa[ 6 ] =  2 abaaaab
sa[ 7 ] =  8 b
sa[ 8 ] =  3 baaaab

rank数组为:
rank[1]=4
rank[2]=6
rank[3]=8
rank[4]=1
rank[5]=2
rank[6]=3
rank[7]=5
rank[8]=7

height数组为:

height[ 1 ]=null
height[ 2 ]= 3
height[ 3 ]= 2
height[ 4 ]= 3
height[ 5 ]= 1
height[ 6 ]= 2
height[ 7 ]= 0
height[ 8 ]= 1

因此,所有子串的最长公共子串就是3.

这里给出一个理解程序:

  1. /*
  2. * this code is made by crazyacking
  3. * Verdict: Accepted
  4. * Submission Date: 2015-05-09-21.22
  5. * Time: 0MS
  6. * Memory: 137KB
  7. */
  8. #include <queue>
  9. #include <cstdio>
  10. #include <set>
  11. #include <string>
  12. #include <stack>
  13. #include <cmath>
  14. #include <climits>
  15. #include <map>
  16. #include <cstdlib>
  17. #include <iostream>
  18. #include <vector>
  19. #include <algorithm>
  20. #include <cstring>
  21. #define LL long long
  22. #define ULL unsigned long long
  23. using namespace std;
  24. const int MAXN=;
  25. //以下为倍增算法求后缀数组
  26. int wa[MAXN],wb[MAXN],wv[MAXN],Ws[MAXN];
  27. int cmp(int *r,int a,int b,int l)
  28. {return r[a]==r[b]&&r[a+l]==r[b+l];}
  29. /**< 传入参数:str,sa,len+1,ASCII_MAX+1 */
  30. void da(const char *r,int *sa,int n,int m)
  31. {
  32. int i,j,p,*x=wa,*y=wb,*t;
  33. for(i=; i<m; i++) Ws[i]=;
  34. for(i=; i<n; i++) Ws[x[i]=r[i]]++;
  35. for(i=; i<m; i++) Ws[i]+=Ws[i-];
  36. for(i=n-; i>=; i--) sa[--Ws[x[i]]]=i;
  37. for(j=,p=; p<n; j*=,m=p)
  38. {
  39. for(p=,i=n-j; i<n; i++) y[p++]=i;
  40. for(i=; i<n; i++) if(sa[i]>=j) y[p++]=sa[i]-j;
  41. for(i=; i<n; i++) wv[i]=x[y[i]];
  42. for(i=; i<m; i++) Ws[i]=;
  43. for(i=; i<n; i++) Ws[wv[i]]++;
  44. for(i=; i<m; i++) Ws[i]+=Ws[i-];
  45. for(i=n-; i>=; i--) sa[--Ws[wv[i]]]=y[i];
  46. for(t=x,x=y,y=t,p=,x[sa[]]=,i=; i<n; i++)
  47. x[sa[i]]=cmp(y,sa[i-],sa[i],j)?p-:p++;
  48. }
  49. return;
  50. }
  51. int sa[MAXN],Rank[MAXN],height[MAXN];
  52. //求height数组
  53. /**< str,sa,len */
  54. void calheight(const char *r,int *sa,int n)
  55. {
  56. int i,j,k=;
  57. for(i=; i<=n; i++) Rank[sa[i]]=i;
  58. for(i=; i<n; height[Rank[i++]]=k)
  59. for(k?k--:,j=sa[Rank[i]-]; r[i+k]==r[j+k]; k++);
  60. // Unified
  61. for(int i=n;i>=;--i) ++sa[i],Rank[i]=Rank[i-];
  62. }
  63.  
  64. char str[MAXN];
  65. int main()
  66. {
  67. while(scanf("%s",str)!=EOF)
  68. {
  69. int len=strlen(str);
  70. da(str,sa,len+,);
  71. calheight(str,sa,len);
  72. puts("--------------All Suffix--------------");
  73. for(int i=; i<=len; ++i)
  74. {
  75. printf("%d:\t",i);
  76. for(int j=i-; j<len; ++j)
  77. printf("%c",str[j]);
  78. puts("");
  79. }
  80. puts("");
  81. puts("-------------After sort---------------");
  82. for(int i=; i<=len; ++i)
  83. {
  84. printf("sa[%2d ] = %2d\t",i,sa[i]);
  85. for(int j=sa[i]-; j<len; ++j)
  86. printf("%c",str[j]);
  87. puts("");
  88. }
  89. puts("");
  90. puts("---------------Height-----------------");
  91. for(int i=; i<=len; ++i)
  92. printf("height[%2d ]=%2d \n",i,height[i]);
  93. puts("");
  94. puts("----------------Rank------------------");
  95. for(int i=; i<=len; ++i)
  96. printf("Rank[%2d ] = %2d\n",i,Rank[i]);
  97. puts("------------------END-----------------");
  98. }
  99. return ;
  100. }

The Use Of Suffix Array

这里只是简单的介绍几种后缀数组的运用,真正的熟练后缀数组,还需要通过不断的做题、不断的实践来掌握。

  1. 最长公共子串

    我们知道,字符串的任何一个子串都可以看作是这个字符串某个的后缀的前缀。
    求A和B的最长公共子串等价于求A的后缀和B的后缀的最长公共前缀的最大值。
    将第二个字符串写在第一个字符串的后面,中间用一个没有出现过的字符隔开,在求出这个新字符串的后缀数组,然后我们只需要找最大的height[i]就可(前提是要判断是否不在同一个字符串中)。

  2. 单个字符串的相关问题

  3. 两个字符串的相关问题

  4. 多个字符串的相关问题

后缀数组(suffix array)详解的更多相关文章

  1. 后缀数组(suffix array)

    参考: Suffix array - Wiki 后缀数组(suffix array)详解 6.3   Suffix Arrays - 算法红宝书 Suffix Array 后缀数组 基本概念 应用:字 ...

  2. 利用后缀数组(suffix array)求最长公共子串(longest common substring)

    摘要:本文讨论了最长公共子串的的相关算法的时间复杂度,然后在后缀数组的基础上提出了一个时间复杂度为o(n^2*logn),空间复杂度为o(n)的算法.该算法虽然不及动态规划和后缀树算法的复杂度低,但其 ...

  3. 数据结构之后缀数组suffix array

    在字符串处理当中,后缀树和后缀数组都是非常有力的工具,其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料.其实后缀是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多 ...

  4. 后缀数组 (Suffix Array) 学习笔记

    \(\\\) 定义 介绍一些写法和数组的含义,首先要知道 字典序 . \(len\):字符串长度 \(s\):字符串数组,我们的字符串存储在 \(s[0]...s[len-1]\) 中. \(suff ...

  5. 后缀数组suffix array

    倍增算法,时间复杂度O(nlogn) sa从小到大保存相对大小的下标 理解LSD,x数组,sa数组 char s[maxn]; int sa[maxn],t[maxn],t2[maxn],c[maxn ...

  6. 【模板】BZOJ 1692:队列变换—后缀数组 Suffix Array

    传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1692 题意: 给出一个长度为N的字符串,每次可以从串头或串尾取一个字符,添加到新串中,使新串 ...

  7. Linux Shell数组常用操作详解

    Linux Shell数组常用操作详解 1数组定义: declare -a 数组名 数组名=(元素1 元素2 元素3 ) declare -a array array=( ) 数组用小括号括起,数组元 ...

  8. 005-Scala数组操作实战详解

    005-Scala数组操作实战详解 Worksheet的使用 交互式命令执行平台 记得每次要保存才会出相应的结果 数组的基本操作 数组的下标是从0开始和Tuple不同 缓冲数组ArrayBuffer( ...

  9. Swift4.0 Array详解

    数组的介绍 数组(Array)是一串有序的由相同类型元素构成的集合,数组中的集合元素是有序的,可以重复出现.在Swift中数组类型是Array,是一个泛型集合.数组分成:可变数组和不可变数组,分别使用 ...

随机推荐

  1. ASP.NET MVC5+EF6+EasyUI 后台管理系统(68)-微信公众平台开发- 资源环境准备

    系列目录 前言: 本次将学习扩展企业微信公众号功能,微信公众号也是企业流量及品牌推广的主要途径,所谓工欲善其事必先利其器,调试微信必须把程序发布外网环境,导致调试速度太慢,太麻烦! 我们需要准备妥当才 ...

  2. nginx+iis+redis+Task.MainForm构建分布式架构 之 (redis存储分布式共享的session及共享session运作流程)

    本次要分享的是利用windows+nginx+iis+redis+Task.MainForm组建分布式架构,上一篇分享文章制作是在windows上使用的nginx,一般正式发布的时候是在linux来配 ...

  3. 无法访问org.springframework.core.NestedRuntimeException 找不到org.springframework.core.NestedRuntimeException的类文件

    在学习springAOP时,出现如下异常: 无法访问org.springframework.core.NestedRuntimeException 找不到org.springframework.cor ...

  4. BPM应用开发解决方案分享

    一.需求分析企业整体管理是一个完整的体系,如果 把这个体系比做一个拼图,企业信息化通过各个业务系统覆盖了一部分业务. 企业通过采购实施通用软件的方式,覆盖了企业的核心业务和专业化业务然而系统只满足了部 ...

  5. Web开发安全之文件上传安全

    很长一段时间像我这种菜鸡搞一个网站第一时间反应就是找上传,找上传.借此机会把文件上传的安全问题总结一下. 首先看一下DVWA给出的Impossible级别的完整代码: <?php if( iss ...

  6. Android中访问sdcard路径的几种方式

    以前的Android(4.1之前的版本)中,SDcard路径通过"/sdcard"或者"/mnt/sdcard"来表示,而在JellyBean(安卓4.1)系统 ...

  7. postgresql无法安装pldbgapi的问题

    要对函数进行调试需要安装插件pldbgapi,当初在windows上面的postgresql实例中执行了一下语句就安装上了: create extension pldbgapi; 但是在linux中执 ...

  8. Configure a bridge interface over a VLAN tagged bonded interface

    SOLUTION VERIFIED February 5 2014 KB340153 Environment Red Hat Enterprise Linux 6 (All Versions) Red ...

  9. 【C#】获取网页内容及HTML解析器HtmlAgilityPack的使用

    最近经常需要下载一些东西,而这个下载地址又会经过层层跳转,每个页面上都有很多广告,烦不胜烦,所以做了一个一键获得最终下载地址的小工具.使用C#,来获取网页内容,然后通过HtmlAgilityPack获 ...

  10. WPF - 属性系统 (2 of 4)

    属性更改回调 前一章的示例中,对各个参数的设置都非常容易理解.如果我们仅仅需要创建一个独立的依赖项属性,那么上面所提到的创建依赖项属性的基础知识足以满足需求.但是事情往往并非如此完美.在一个系统中,很 ...