后缀自动机----一种将字符串变成DAG的方法
后缀自动机 (suffix automaton, SAM) 是一个能解决许多字符串相关问题的有力的数据结构。(否则我们也不会用它)
举几个例子,以下的字符串问题都可以在线性时间内通过 SAM 解决
1.在另一个字符串中搜索一个字符串的所有出现位置。(诶?KMP好像能做)
2.计算给定的字符串中有多少个不同的子串。(诶?好像也能做)
3.统计一个子串所有不同子串的总长度 (额,线性复杂度?以前的知识好像就不行了)
4.字典序第k大/小子串(字典树好像可以做,但线性?不会!)
5.给定一个字符串 。找出字典序最小的循环移位。(这个我会!最小表示法!)
6.对于一个给定的文本串T ,有多组询问,每组询问给一个模式串S ,回答模式串S在字符串T中作为子串出现了多少次。(AC自动机!也可以)
7.给定一个字符串S 和一个特定的字符集,我们要找一个长度最短的没有在S中出现过的字符串。(以前的知识做不到我太菜了)
8.两个字符串的最长公共子串(线性??!以前的知识做不到我太菜了)
9.多个字符串的最长公共子串(我不会!!)
这么多东西都可以线性时间内解决,厉害吧;
厉害的前提是你先要学会后缀自动机
接下来进入正题:
SAM是什么?
1.SAM 是一张有向无环图。结点被称作 状态 ,边被称作状态间的 转移 。
2.图存在一个源点root称作 初始状态 ,其它各结点均可从root出发到达。每个 转移 都标有一些字母。从一个结点出发的所有转移均 不同 。
3.存在一个或多个 终止状态 。如果我们从初始状态出发,最终转移到了一个终止状态,则路径上的所有转移连接起来一定是字符串S的一个后缀。
4.S的每个后缀均可用一条从到某个终止状态的路径构成。
5.在所有满足上述条件的自动机中,SAM 的结点数是最少的。
具体可以证明,SAM的点数最多是2*n-1,边数最多时3*n-4; (暂时为了方便理解并不证明,你只要露出"哇!这是上限吗","我靠,这SAM的复杂度也太***的强了"的表情就好了);
SAM的性质:
SAM 最简单、也最重要的性质是,它包含关于字符串的所有子串的信息。任意从初始状态开始的路径,如果我们将转移路径上的标号写下来,都会形成S的一个子串 。反之每个S的子串对应从初始状态开始的某条路径。
为了更好的理解SAM(背模板,水经验),我们定义一些奇怪的东西;(不要一看到不认识的概念就跳过去,否则建图会看不懂的)
1.endpos等价类
考虑字符串S的任意非空子串t,我们记endpos(t)为在字符串S中t的所有结束位置.
让我们举个栗子:(假设对字符串中字符的编号从零开始)
对于S=“cbacbaba” endpos(ba)="2,5,7" endpos(a)="2,5,7" endpos(cba)="2,5";
我们发现,对于"ba"和"a"的endpos等价类的数值是完全相同的,那么这对与SAM来说是个好东西,我们可以将所有endpos相同的子串放到SAM的一个节点上,大大节省了空间与时间复杂度;
那么一个重要的结论出现了:SAM上的每个节点都代表一个endpos等价类;(比如刚才的栗子中,子串"ba","a"在SAM上用一个节点表示)
我们发现一个不是引理的性质:对于一个子串S,不断的删除它开头的元素,那么它的endpos一定是在已有的旧元素基础上加入一些新元素(或者不加),大致理解一下对于下面的引理很好理解
引理1:字符串S的两个非空子串x和y的endpos相同,当且仅当字符串x在S中的每次出现,都是以y后缀的形式存在的。(x<=y) (很显然的对吧?)
引理2:两个非空子串x,y, 他们的endpos的不可能存在交集 (很显然的对吧)
引理3:考虑一个endpos等价类,将类中的所有子串按长度递减的顺序排序。每个子串是它前一个子串的后缀。
换句话说,对于同一等价类的任一两子串,较短者为较长者的后缀,且该等价类中的子串长度恰好覆盖整个区间;
粗略证明感性理解:对于一个endpos等价类中的最长子串x,和最短子串y,若y的开头加一个元素,使得新形成的字符串z是S的子串,那么如果z的长度<=x,则endpos(z)
一定=endpos(y)=endpos(x); 使用数学归纳法可以证明所有的y<=z<=x;z的endpos都与x,y相同;
2.后缀链接 link:
考虑 SAM 中某个不是root的一个状态 。我们已经知道,状态v对应于具有相同endpos的等价类。我们如果定义x为这些字符串中最长的一个,则所有其它的字符串都是x的后缀。
一个后缀链接link连接到对应于状态v的最短子串的所有后缀中长度最大的那个endpos等价类。
引理1:所有后缀链接构成一棵根节点为root的树 (和造一颗随机树的原理相同:对于一个endpos等价类v,只会连到比v的最短子串小的endpos等价类)
下面放两张图:对于字符串"abcbc",前者是表示边的转移状态,后者表示link的连接方式;
好了,定义暂时告一段落了;接下来就是构造环节了(代码):(别人家的构造过程 (逃~)
!!极度建议结合之前的定义来阅读!!
代码实现就是:
class node{
public:
int ch[28];
int link;
int len;
}SAM[3000010];
int ans[3000010];
int last=0,size=1;
void SAM_build()
{
SAM[0].len=0;
n=strlen(s+1);
SAM[0].link=-1;
inc(u,1,n){
int c=s[u]-'a';
int cur=size++;
ans[cur]=1;
SAM[cur].len=SAM[last].len+1;
int p=last;
while(p!=-1&&!SAM[p].ch[c]){
SAM[p].ch[c]=cur;
p=SAM[p].link;
}
if(p==-1){
SAM[cur].link=0;
}
else{
int q=SAM[p].ch[c];
if(SAM[q].len==SAM[p].len+1){
SAM[cur].link=q;
}
else{
int newq=size++;
SAM[newq]=SAM[q];
SAM[newq].len=SAM[p].len+1;
while(p!=-1&&SAM[p].ch[c]==q){
SAM[p].ch[c]=newq;
p=SAM[p].link;
}
SAM[q].link=newq;
SAM[cur].link=newq;
}
}
last=cur;
}
}
后缀自动机----一种将字符串变成DAG的方法的更多相关文章
- 用c++后缀自动机实现最大公共字符串算法,并封装成Python库
后缀自动机的C++代码转自https://e-maxx.ru/algo/suffix_automata,其余封装为自写. 在C++文件同级目录建立setup.py文件,代码如下: # !/usr/bi ...
- 【文文殿下】后缀自动机(SAM)求最长公共子串的方法
首先,在A 串上建立一个SAM,然后用B串在上面跑.具体跑的方法是: 从根节点开始,建立一个指针 p ,指着B串的开头,同步移动指针,沿着SAM的边移动,如果可以移动(即存在边)那么万事皆好,直接le ...
- 一文读懂后缀自动机 Suffix_Automata
原论文(俄文)地址:suffix_automata 原翻译(中文)地址:后缀自动机详解(DZYO的博客) Upd:强推浅显易懂(?)的SAM讲解 后缀自动机 后缀自动机(单词的有向无环图)--是一种强 ...
- 牛客多校第四场 I string 后缀自动机/回文自动机
这个回文自动机的板有问题,它虽然能过这道题,但是在计算size的时候会出锅! 题意: 求一个字符串中本质不同的连续子串有几个,但是某串和它反转后的字符串算一个. 题解: 要注意的是,一般字符串题中的“ ...
- BZOJ 3473: 字符串 [广义后缀自动机]
3473: 字符串 Time Limit: 20 Sec Memory Limit: 256 MBSubmit: 354 Solved: 160[Submit][Status][Discuss] ...
- [BJWC2018]Border 的四种求法(后缀自动机+链分治+线段树合并)
题目描述 给一个小写字母字符串 S ,q 次询问每次给出 l,r ,求 s[l..r] 的 Border . Border: 对于给定的串 s ,最大的 i 使得 s[1..i] = s[|s|-i+ ...
- bzoj 3277 串 && bzoj 3473 字符串 && bzoj 2780 [Spoj]8093 Sevenk Love Oimaster——广义后缀自动机
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=3277 https://www.lydsy.com/JudgeOnline/problem.p ...
- 【专题】字符串专题小结(AC自动机 + 后缀自动机)
AC自动机相关: $fail$树: $fail$树上以最长$border$关系形成父子关系,我们定一个节点对应的串为根到该节点的路径. 对于任意一个非根节点$x$,定$y = fa_{x}$,那$y$ ...
- BZOJ 3926: [Zjoi2015]诸神眷顾的幻想乡 广义后缀自动机 后缀自动机 字符串
https://www.lydsy.com/JudgeOnline/problem.php?id=3926 广义后缀自动机是一种可以处理好多字符串的一种数据结构(不像后缀自动机只有处理一到两种的时候比 ...
随机推荐
- 微信打开手机内置浏览器跳转手机默认浏览器打开html网页
微信上进行的网页宣传.游戏传播.APP下载各类活动很多,但是各位朋友肯定经常会遇到一些特殊需求,网页需要在手机默认浏览器打开而不是微信内置浏览器.这个问题怎么解决呢? 斗在微信营销的浪潮中 解决方案: ...
- Hdu 5248
hdu5248-序列变换 题意: 给你一个序列A,要求改变序列A中的某些元素的顺序,形成一个新的数列B,并保证数列B严格单调递增,求出最小代价. 代价计算公式 $ cost(a,b)=max(|A_i ...
- ubuntu nvidia驱动安装教程
1. 安装显卡切换软件 sudo add-apt-repository ppa:nilarimogard/webupd8 #添加PPA更新源 sudo apt-get update #刷新更新源列 ...
- zookeeper系列(九)zookeeper的会话详解
作者:leesf 掌控之中,才会成功:掌控之外,注定失败. 出处:http://www.cnblogs.com/leesf456/p/6103870.html尊重原创,大家共同学习: 一.前言 ...
- CISCO实验记录五:静态路由与RIP动态路由
一.实验要求 1.创建设备间静态路由 2.检查三层连通性 3.清空路由,使用RIP创建动态路由 4.检查路由表 二.实验操作 1.创建设备静态路由 #iip route 192.168.1.0 255 ...
- Linux设备驱动程序 之 休眠
休眠简介 当一个进程被置入休眠时,它会被标记为一种特殊状态,并从调度器的运行队列中移走:直到某些情况下修改了这个状态,进程才会在任意cpu上调度,即运行该进程:休眠中的进程会被搁置在一边,等待将来的某 ...
- LeetCode 141. 环形链表(Linked List Cycle)
题目描述 给定一个链表,判断链表中是否有环. 进阶:你能否不使用额外空间解决此题? 解题思路 快慢指针,慢指针一次走一步,快指针一次走两步,若两者相遇则说明有环,快指针无路可走则说明无环. 代码 /* ...
- Android APP切换到后台接收不到推送消息
1. Android端进程被杀死后,目前自带的保护后台接收消息活跃机制.暂时没有什么好的机制保持任何情况下都活跃 android原生系统用home键杀进程可以起来,如果是强行停止就只能用户自己手动 ...
- 提高组刷题营 DAY 1 下午
DFS 深度优先搜索 通过搜索得到一棵树形图 策略:只要能发现没走过的点,就走到它.有多个点可走就随便挑一个,如果无路可走就回退,再看有没有没走过的点可走. 在图上寻找路径[少数可用最短路解决]:最短 ...
- vue active样式显示
html:代码 <ul> <li @click="current='xxxx'" :class="{active:current=='xxxx'}&qu ...