学习了后缀数组,顺便把DC3算法也看了一下,传说中可以O(n)复杂度求出文本串的height,先比较一下倍增算法和DC3算法好辣。

      DC3          倍增法

时间复杂度 O(n)(但是常数很大)     O(nlogn)(常数较小)

空间复杂度   O(n)            O(n) 

编程复杂度    较高            较低

  由于在时间复杂度上DC3的常数比较大,再加上编程复杂度比较高,所以在解决问题的时候并不是最优选择。但是学到了后缀数组还是补充一下的好点。

  DC3算法的实现:

  1:先把文本串的后缀串分成两部分,第一部分是后缀串i mod 3 == 0, 第二部分是i mod 3 != 0,然后先用基数排序对第二部分后缀串排序(按照前三个字符进行排序)。

 int *san = sa+n, *rn = r+n, ta=, tb=(n+)/, tbc=, i, j, p;
//ta i mod 3==0的个数,tb i mod 3==1的个数, tbc imod3!=0的个数
for (i=; i<n; i++)
if (i % )
x[tbc ++] = i; r[n] = r[n+] = ;//在文本串后面添加两个0,便于处理
Sort (r+, x, y, tbc, m);
Sort (r+, y, x, tbc, m);
Sort (r, x, y, tbc, m);

  然后把suffix[1]与suffix[2]数组连起来,每三个相邻的字符看做一个数,变成这个样子:

操作代码如下:

 rn[F(y[])] = ;
for (i=, p=; i<tbc; i++)
rn[F(y[i])] = c0(r, y[i-], y[i])?p-:p++;
//#define F(x) x/3+(x%3==1?0:tb)
//F(x) 求原字符串suffix(i)在新串中的位置

如果p>=tbc的话,也就是说只排列前三个字符就可以区分出第二部分后缀串的顺序了,否则就要进行递归继续对第二部分的串进行排序。

 if (p < tbc)
DC3 (rn, san, tbc, p);
else
for (i=; i<tbc; i++)
san[rn[i]] = i;

  2:对第一部分后缀来说:

  suffix[3*i] = r[3*i] + suffix[3*i+1];

  suffix[3*j] = r[3*j] + suffix[3*j+1]; 我们已知i mod 3 == 1 的所有suffix[i]的顺序了,可以利用基数排序很快的求出第一部分后缀的顺序。

 for (i=; i<tbc; i++)
if (san[i] < tb)
y[ta++] = san[i]*;
if (n% == )
//对于n%3==1时,不存在suffix[n-1] == r[n] + suffix[n];
y[ta++] = n - ;
Sort (r, y, x, ta, m);//对mod3==0的后缀串排序

  3:第一部分后缀数组和第二部分后缀数组都排好序以后,可以对两部分后缀数组进行一次简单的归并排序,然后sa数组就完美呈现了。

 //#define G(x) x>=tb?(x-tb)*3+2:x*3+1
//新文本串中suffix(i)在原文本串中的位置
for (i=; i<tbc; i++)
c[y[i] = G(san[i])] = i;
for (i=, j=, p=; i<ta&&j<tbc; p++)
sa[p] = c12 (y[j]%, r, y[j], x[i])?y[j++]:x[i++];
for (; j<tbc; j++)
sa[p++] = y[j];
for (; i<ta; i++)
sa[p++] = x[i];

c12就是比较第一部分与第二部分串的大小:

suffix [3*i] = r[3*i] + suffix[3*i+1];

suffix [3*j+1] = r[3*j+1] + suffix[3*j+2]; 已知suffix[3*i+1]与suffix[3*i+2]所对应的大小关系,可以比较r[3*i]与r[3*j+1]的大小得出最终结果。

suffix [3*i] = r[3*i] + suffix[3*i+1];

suffix [3*j+2] = r[3*j+2] + suffix[3*(j+1)]; 这个我们可以先比较 r[3*i] 与 r[3*j+2] 的大小,然后再比较 suffix[3*i+1] 与 suffix[3*(j+1)] ,这样就把问题转化为了第一种情况咯。

 bool c12 (int k, int *r, int a, int b)
{//return 真 suffix[b]大,return false suffix[a]大
if (k == )
return r[a]<r[b] || (r[a]==r[b]&&c[a+]<c[b+]);
return r[a]<r[b] || (r[a]==r[b]&&c12(, r, a+, b+));
}

对于和后缀数组相关的这两个算法,其实并没有什么难点。难理解的点就在于基数排序对数组的使用,手动模拟几遍就OK辣!

最后再附上一个完整的DC3代码

 #define F(x) x/3+(x%3==1?0:tb)
#define G(x) x>=tb?(x-tb)*3+2:x*3+1 const int maxn = ;
int c[maxn*], x[maxn*], y[maxn*];
int sa[maxn*], rank[maxn*]; bool c0 (int *r, int a, int b)
{
return r[a]==r[b] && r[a+]==r[b+] && r[a+]==r[b+];
} bool c12 (int k, int *r, int a, int b)
{
//return 真 suffix[b]大,return false suffix[a]大
if (k == )
return r[a]<r[b] || (r[a]==r[b]&&c[a+]<c[b+]);
return r[a]<r[b] || (r[a]==r[b]&&c12(, r, a+, b+));
} void Sort (int *r, int *a, int *b, int n, int m)
{
for (int i=; i<m; i++) c[i] = ;
for (int i=; i<n; i++) c[r[a[i]]] ++;
for (int i=; i<m; i++) c[i] += c[i-];
for (int i=n-; i>=; i--)
b[--c[r[a[i]]]] = a[i];
} void DC3 (int *r, int *sa, int n, int m)
{
int *san = sa+n, *rn = r+n, ta=, tb=(n+)/, tbc=, i, j, p;
for (i=; i<n; i++) if (i % ) x[tbc ++] = i; r[n] = r[n+] = ;
Sort (r+, x, y, tbc, m);
Sort (r+, y, x, tbc, m);
Sort (r, x, y, tbc, m); rn[F(y[])] = ;
for (i=, p=; i<tbc; i++)
rn[F(y[i])] = c0(r, y[i-], y[i])?p-:p++;
//rn[i] 起始位置为i的排名 if (p < tbc)
DC3 (rn, san, tbc, p);
else
for (i=; i<tbc; i++)
san[rn[i]] = i; for (i=; i<tbc; i++)
if (san[i] < tb)
y[ta++] = san[i]*; if (n% == )
y[ta++] = n - ; Sort (r, y, x, ta, m);//对mod3==0的后缀串排序
for (i=; i<tbc; i++)
c[y[i] = G(san[i])] = i; for (i=, j=, p=; i<ta&&j<tbc; p++)
sa[p] = c12 (y[j]%, r, y[j], x[i])?y[j++]:x[i++];
for (; j<tbc; j++)
sa[p++] = y[j];
for (; i<ta; i++)
sa[p++] = x[i]; return;
}

后缀数组 DC3构造法 —— 详解的更多相关文章

  1. [八分之一的男人]POJ - 1743 后缀数组 height分组 带详解

    题意:求最长不可重叠的相同差值子串的长度 这道题算是拖了好几个月,现在花了点时间应该搞懂了不少,尝试分析一下 我们首先来解决一个退化的版本,求最长不可重叠的相同子串(差值为0) 比如\(aabaaba ...

  2. RAII惯用法详解

    [1]什么是RAII惯用法? RAII是Resource Acquisition Is Initialization的缩写,意为“资源获取即初始化”. 它是C++之父Bjarne Stroustrup ...

  3. GoLang基础数据类型--->数组(array)详解

    GoLang基础数据类型--->数组(array)详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Golang数组简介 数组是Go语言编程中最常用的数据结构之一.顾名 ...

  4. 数据结构与算法系列2 线性表 使用java实现动态数组+ArrayList源码详解

    数据结构与算法系列2 线性表 使用java实现动态数组+ArrayList源码详解 对数组有不了解的可以先看看我的另一篇文章,那篇文章对数组有很多详细的解析,而本篇文章则着重讲动态数组,另一篇文章链接 ...

  5. POJ - 2406 Power Strings (后缀数组DC3版)

    题意:求最小循环节循环的次数. 题解:这个题其实可以直接用kmp去求最小循环节,然后在用总长度除以循环节.但是因为在练后缀数组,所以写的后缀数组版本.用倍增法会超时!!所以改用DC3法.对后缀数组还不 ...

  6. C语言 后缀自增的优先级详解

    // ++ 后缀自增与取地址& ,提领 * (指针里的操作符)的优先级比较 #include<stdio.h> #include<stdlib.h> #include& ...

  7. POJ 3581 Sequence ——后缀数组 最小表示法

    [题目分析] 一见到题目,就有了一个显而易见obviously的想法.只需要每次找到倒过来最小的那一个字符串翻转就可以了. 然而事情并不是这样的,比如说505023这样一个字符串,如果翻转了成为320 ...

  8. 中文分词系列(一) 双数组Tire树(DART)详解

    1 双数组Tire树简介 双数组Tire树是Tire树的升级版,Tire取自英文Retrieval中的一部分,即检索树,又称作字典树或者键树.下面简单介绍一下Tire树. 1.1 Tire树 Trie ...

  9. SLAM入门之视觉里程计(6):相机标定 张正友经典标定法详解

    想要从二维图像中获取到场景的三维信息,相机的内参数是必须的,在SLAM中,相机通常是提前标定好的.张正友于1998年在论文:"A Flexible New Technique fro Cam ...

随机推荐

  1. easyUI datagrid组件能否有display:none的隐藏效果

    这个项目用了JQ easyUI datagrid 组件,我今天做了一个页面,页面有个div层,div里放了一个easyUI datagrid,页面初始化时div隐藏(display:none),通过点 ...

  2. Hadoop 0.20.2+Ubuntu13.04配置和WordCount測试

    事实上这篇博客写的有些晚了.之前做过一些总结后来学校的事给忘了,这几天想又一次拿来玩玩发现有的东西记不住了.翻博客发现居然没有.好吧,所以赶紧写一份留着自己用吧.这东西网上有非常多,只是也不是全然适用 ...

  3. Codeforces Round #422 (Div. 2) E. Liar 后缀数组+RMQ+DP

    E. Liar     The first semester ended. You know, after the end of the first semester the holidays beg ...

  4. kill 挂起 Apache Web Server

    [root@hadoop1 ~]# kill -l 1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP 6) SIGABRT 7) SIGBUS 8 ...

  5. java里类方法和实例方法

    实例方法相对于静态方法(或者叫类方法)而言没有 static 前缀类般方法被对象拥有(也称之实例方法原因)特点定义时候前面没有 static 前缀本类直接调用时候必须也实例方法内否则调用前必须先实例出 ...

  6. android 提示

    1.Toast: Toast toast=new Toast(context); Toast.makeText(context, text, duration);//返回值为Toast toast.s ...

  7. iOS 开发用到的常用工具

    如果你去到一位熟练的木匠的工作室,你总是能发现他/她有一堆工具来完成不同的任务. 软件开发同样如此.你可以从软件开发者如何使用工具中看出他水准如何.有经验的开发者精于使用工具.对你目前所使用的工具不断 ...

  8. date format记录

    各种日期格式定义,容易忘记,这里备注下: * 支持格式为 yyyy.MM.dd G 'at' hh:mm:ss z 如 '2002-1-1 AD at 22:10:59 PSD'<br> ...

  9. 关于树论【动态树问题(LCT)】

    搬运:看一道caioj1439 题目描述 一开始给你一棵n个点n-1条边的树,每个点有一个权值wi. 三种操作: op=1 u v :在点u和点v之间建一条边. op=2 u v:摧毁点u到点v之间的 ...

  10. 项目中Redis分库

    Redis中有16个库 默认第0个库 配置库的设置: 不同的库  key可以重复哈 公司的多个不同分布式项目,但是只有一个redis时候,以项目方式区分不同的库 每个项目连接相同 但是库不同