题目链接

题意:给定一个字符串,求重复次数最多的连续重复子串。

分析:(论文上的分析)先穷举长度 L,然后求长度为 L 的子串最多能连续出现几次。首先连续出现 1 次是肯定可以的,所以这里只考虑至少 2 次的情况。假设在原字符串中连续出 现 2 次,记这个子字符串为 S,那么 S 肯定包括了字符 r[0], r[L], r[L*2], r[L*3], ……中的某相邻的两个。所以只须看字符 r[L*i]和 r[L*(i+1)]往前和 往后各能匹配到多远,记这个总长度为 K,那么这里连续出现了 K/L+1 次。最后 看最大值是多少。穷举长度 L 的时间是 n,每次计算的时间是 n/L。所以整个做法的时间复杂 度是 O(n/1+n/2+n/3+……+n/n)=O(nlogn)。

因为枚举长度的同时不能枚举起点的位置,但是可以通过偏移(lcp%L)的距离来得到可能的最优起点。例如"dddcabcabcabcab"从红字与红字为开始点,长度为3的lcp为8("abcabcab"),偏移后从"dddcabcabcabcab"红字与红字开始,长度为3的lcp为9("cabcabcab")。题目要求次数最多,长度不限,字典序最小的,那么保存所有次数同样最大,不同长度的所有长度,在已经排好序的后缀从前往后匹配就行了。代码实现有诸多细节之处,另外数据水,不保证没有bug。

#include <cstdio>
#include <algorithm>
#include <cstring> const int N = 1e5 + 5;
const int D = 20;
char s[N];
int sa[N], rank[N], height[N];
int ws[N], wa[N], wb[N];
int dp[N][D];
int mlen[N]; bool cmp(int *r, int a, int b, int l) {
return (r[a] == r[b] && r[a+l] == r[b+l]);
}
void DA(char *r, int n, int m = 128) {
int i, j, p, *x = wa, *y = wb;
for (i=0; i<m; ++i) ws[i] = 0;
for (i=0; i<n; ++i) ws[x[i]=r[i]]++;
for (i=1; i<m; ++i) ws[i] += ws[i-1];
for (i=n-1; i>=0; --i) sa[--ws[x[i]]] = i;
for (j=1, p=1; p<n; j<<=1, m=p) {
for (p=0, i=n-j; i<n; ++i) y[p++] = i;
for (i=0; i<n; ++i) if (sa[i] >= j) y[p++] = sa[i] - j;
for (i=0; i<m; ++i) ws[i] = 0;
for (i=0; i<n; ++i) ws[x[y[i]]]++;
for (i=1; i<m; ++i) ws[i] += ws[i-1];
for (i=n-1; i>=0; --i) sa[--ws[x[y[i]]]] = y[i];
std::swap (x, y);
p = 1; x[sa[0]] = 0;
for (i=1; i<n; ++i) {
x[sa[i]] = cmp (y, sa[i-1], sa[i], j) ? p - 1 : p++;
}
}
}
void calc_height(char *r, int *sa, int n) {
int i, j, k = 0;
for (i=1; i<=n; ++i) rank[sa[i]] = i;
for (i=0; i<n; ++i) {
if (k) k--;
j = sa[rank[i]-1];
while (r[i+k] == r[j+k]) k++;
//其实并没有计算height[n]
height[rank[i]] = k;
}
} int query_RMQ(int l, int r) {
l = rank[l]; r = rank[r];
if (l > r) {
std::swap (l, r);
}
l++;
int k = 0; while (1<<(k+1) <= r - l + 1) k++;
return std::min (dp[l][k], dp[r-(1<<k)+1][k]);
}
void init_RMQ(int n) {
//height[0]=lcp (suffix (sa[0], sa[0-1]));没有意义
for (int i=1; i<=n; ++i) {
dp[i][0] = height[i];
}
for (int j=1; (1<<j)<=n; j++) {
for (int i=1; i+(1<<j)-1<n; ++i) {
//与之对应,从height[1]开始
dp[i][j] = std::min (dp[i][j-1], dp[i+(1<<(j-1))][j-1]);
}
}
} int main() {
int cas = 0;
while (scanf ("%s", s) == 1) {
if (strcmp (s, "#") == 0) {
break;
}
int n = strlen (s);
DA (s, n + 1);
calc_height (s, sa, n);
init_RMQ (n);
int best = -1, tot = 0;
for (int l=1; l<=n; ++l) {
for (int i=0; i+l<n; i+=l) {
int lcp = query_RMQ (i, i + l);
int m = l - lcp % l;
if (i - m >= 0 && lcp % l) {
lcp = std::max (lcp, query_RMQ (i - m, i - m + l));
}
int t = lcp / l + 1;
if (best < t) {
best = t;
tot = 0;
mlen[tot++] = l;
} else if (best == t && mlen[tot-1] != l) {
mlen[tot++] = l;
}
}
}
//best: 重复次数 mlen: 每段长度
int len = -1, from = 0;
for (int i=1; i<=n && len==-1; ++i) {
for (int j=0; j<tot; ++j) {
int l = mlen[j];
if (sa[i] + l > n) {
continue;
}
int lcp = query_RMQ (sa[i], sa[i] + l);
if (lcp >= (best - 1) * l) {
len = l; from = sa[i];
break;
}
}
}
printf ("Case %d: ", ++cas);
int L = len * best; //当字符串只有一个时,L=-1*-1=1, from=0, 输出s[0]
for (int j=0, i=from; j<L; ++i, ++j) {
printf ("%c", s[i]);
}
puts ("");
}
return 0;
}

  

后缀数组 POJ 3693 Maximum repetition substring的更多相关文章

  1. POJ 3693 Maximum repetition substring(最多重复次数的子串)

    Maximum repetition substring Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 10461   Ac ...

  2. POJ 3693 Maximum repetition substring(后缀数组)

    Description The repetition number of a string is defined as the maximum number R such that the strin ...

  3. POJ 3693 Maximum repetition substring(后缀数组+ST表)

    [题目链接] poj.org/problem?id=3693 [题目大意] 求一个串重复次数最多的连续重复子串并输出,要求字典序最小. [题解] 考虑错位匹配,设重复部分长度为l,记s[i]和s[i+ ...

  4. POJ 3693 Maximum repetition substring ——后缀数组

    重复次数最多的字串,我们可以枚举循环节的长度. 然后正反两次LCP,然后发现如果长度%L有剩余的情况时,答案是在一个区间内的. 所以需要找到区间内最小的rk值. 两个后缀数组,四个ST表,$\Thet ...

  5. POJ - 3693 Maximum repetition substring(重复次数最多的连续重复子串)

    传送门:POJ - 3693   题意:给你一个字符串,求重复次数最多的连续重复子串,如果有一样的,取字典序小的字符串. 题解: 比较容易理解的部分就是枚举长度为L,然后看长度为L的字符串最多连续出现 ...

  6. poj 3693 Maximum repetition substring

    呵呵呵呵呵呵呵呵呵呵,sb(神犇)题看了一天,还是不懂 题目要求的是最多重复的,那么就来找重复的,可以先枚举一个重复的单元(比如ababab,就枚举ab)的长度, 然后再原串中,会有ch[0],ch[ ...

  7. poj 3693 Maximum repetition substring (后缀数组)

    其实是论文题.. 题意:求一个字符串中,能由单位串repeat得到的子串中,单位串重复次数最多的子串.若有多个重复次数相同的,输出字典序最小的那个. 解题思路:其实跟论文差不多,我看了很久没看懂,后来 ...

  8. POJ 3693 Maximum repetition substring (后缀数组+RMQ)

    题意:给定一个字符串,求其中一个由循环子串构成且循环次数最多的一个子串,有多个就输出最小字典序的. 析:枚举循环串的长度ll,然后如果它出现了两次,那么它一定会覆盖s[0],s[ll],s[ll*2] ...

  9. POJ 3693 Maximum repetition substring(连续重复子串)

    http://poj.org/problem?id=3693 题意:给定一个字符串,求重复次数最多的连续重复子串. 思路: 这道题确实是搞了很久,首先枚举连续子串的长度L,那么子串肯定包含了r[k], ...

随机推荐

  1. IOS - Foundation和Core Foundation掺杂使用桥接

    Foundation和Core Foundation掺杂使用桥接 Toll-Free Bridging 在cocoa application的应用中,我们有时会使用Core Foundation(CF ...

  2. php正则表达式、数组

    <?php $s = "he8llo5wor6ld"; $s = preg_replace("/\d/","#",$s);按照正则表达 ...

  3. nohup命令

    nohup就是不挂起的意思( n ohang up). .nohup command 或者 nohup command & 这之间的差别是带&的命令行,即使terminal(终端)关闭 ...

  4. python基础——多重继承

    python基础——多重继承 继承是面向对象编程的一个重要的方式,因为通过继承,子类就可以扩展父类的功能. 回忆一下Animal类层次的设计,假设我们要实现以下4种动物: Dog - 狗狗: Bat ...

  5. Innodb之监控Buffer pool Load progress

    你可以使用PERFORMANCE SCHEMA中的相关信息监控BUFFER POOL状态加载进程. 1. 启用 stage/innodb/buffer pool load instrument: 2. ...

  6. 困难的串(dfs)

    困难的串 题意: 如果一个字符串包含两个相邻的重复子串,则称它是“容易的串”,其他串称为“困难的串”.例如,                 BB.ABCDABCD都是容易的串,而D.DC.ABDAD ...

  7. php上传文件进度条

    ps:本文转自脚本之家 Web应用中常需要提供文件上传的功能.典型的场景包括用户头像上传.相册图片上传等.当需要上传的文件比较大的时候,提供一个显示上传进度的进度条就很有必要了. 在PHP 5.4以前 ...

  8. iscroll 4.0 滚动(水平和垂直)

    1.概述 iscroll 专注于页面滚动js.Iscroll滚动做的挺好,特别是针对手机网页(android.iphone)正好弥补手动滑屏的遗缺,而今研究一番,把代码贴出来,供大家参考. 2.isc ...

  9. git push 使用总结

    git push命令用于将本地分支的更新,推送到远程主机.它的格式与git pull命令相仿. $ git push <远程主机名> <本地分支名>:<远程分支名> ...

  10. Ubuntu下Chromium for Android 源码的编译

    转自:http://blog.csdn.net/leer168/article/details/9146689 一.环境Ubuntu10.4.4 -desktop-amd64 + VMware Wor ...