2017年 1月 15日 后缀数组 学习整理

写在前面

在字符串处理当中,后缀树和后缀数组都是非常有力的工具。

其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料。

其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,

能够实现后缀树的很多功能而时间复杂度也不太逊色,并且,它比后缀树所占用的空间小很多。

可以说,在信息学竞赛中后缀数组比后缀树要更为实用!

因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法,

以及配合后缀数组的最长公共前缀数组的构造方法,最后结合一些例子谈谈后缀数组的应用。

.

学习后缀数组需要认识几个概念:

子串

  字符串S的子串r[i..j],i<=j,表示S串中从i到j这一段,就是顺次排列r[i],r[i+1],...,r[j]形成的子串。

后缀

  后缀是指从某个位置 i 开始到整个串末尾结束的一个特殊子串。字符串r的从第i个字符开始的后缀表示为Suffix(i),

    也就是Suffix(i)=S[i...len(S)-1] 。

后缀数组(SA[i]存放排名第i大的后缀首字符下标)

  后缀数组 SA 是一个一维数组,它保存1..n 的某个排列SA[1] ,SA[2] ,...,SA[n] ,

  并且保证Suffix(SA[i])<Suffix(SA[i+1]), 1<=i<n 。

    也就是将S的n个后缀从小到大进行排序之后把排好序的后缀的开头位置顺次放入SA 中。

名次数组(rank[i]存放suffix(i)的优先级)

  名次数组 Rank[i] 保存的是 Suffix(i) 在所有后缀中从小到大排列的“名次”

   注:这个是排序的关键字~(这句话是我们排序的重点)

 

 

(我的理解):

sa[i]:保存的是S字符串的所有后缀在以字典序排序后,排在第i名的字符串在原来子串中的位置。

rank[i]:保存的是S字符串的所有后缀在以字典序排序后,原来的第i名现在排第几。

简单的说,后缀数组(SA)是“排第几的是谁?”,名次数组(RANK)是“你排第几?”。

容易看出,后缀数组和名次数组为互逆运算。我们只要算出了sa数组,就可以在O(n)的时间复杂度内算出rank数组。

height数组:height[i]保存的是suffix(i)和suffix(i-1)的最长公共前缀的长度。也就是排名相邻的两个后缀的最长公共前缀。

.

要构造Suffix Array,主要就是构造sa数组,rank数组和height数组。

首先来看一下如何构造sa数组:

构造sa数组的方法有三种:

1)倍增算法:O(nlongn)

2)DC3算法:O(n)

3)skew算法(不常用) 

下面用草稿纸来模拟一遍:

例如:
aabaaaab


总共有n=8个后缀:

1: aabaaaab  2: abaaaab  3: baaaab  4: aaaab  5: aaab  6: aab  7: ab  8: b


按照字典序排序后

sa[ 1 ] = 4 aaaab  sa[ 2 ] =  5 aaab  sa[ 3 ] =  6 aab  sa[ 4 ] =  1 aabaaaab 

sa[ 5 ] =  7 ab  sa[ 6 ] =  2 abaaaab  sa[ 7 ] =  8 b  sa[ 8 ] =  3 baaaab

 

rank数组为:
rank[1]=4  rank[2]=6  rank[3]=8  rank[4]=1  rank[5]=2  rank[6]=3  rank[7]=5
rank[8]=7
height数组为:

height[ 1 ]=null  height[ 2 ]= 3  height[ 3 ]= 2   height[ 4 ]= 3   height[ 5 ]= 1 
height[ 6 ]= 2   height[ 7 ]= 0   height[ 8 ]= 1


    因此,所有子串的最长公共子串就是3.

这里给出一个理解程序:

#include <queue>
#include <cstdio>
#include <set>
#include <string>
#include <stack>
#include <cmath>
#include <climits>
#include <map>
#include <cstdlib>
#include <iostream>
#include <vector>
#include <algorithm>
#include <cstring>
#define  LL long long
#define  ULL unsigned long long
using namespace std;
const int MAXN=100010;
int wa[MAXN],wb[MAXN],wv[MAXN],ws[MAXN];
int cmp(int *r,int a,int b,int l) {
	return r[a]==r[b]&&r[a+l]==r[b+l];
}
void da(const char *r,int *sa,int n,int m) {
	int i,j,p,*x=wa,*y=wb,*t;
	for(i=0;i<m;i++) ws[i]=0;
	for(i=0;i<n;i++) ws[x[i]=r[i]]++;
	for(i=1;i<m;i++) ws[i]+=ws[i-1];
	for(i=n-1;i>=0;i--) sa[--ws[x[i]]]=i;
	for(j=1,p=1;p<n;j*=2,m=p) {
		for(p=0,i=n-j;i<n;i++) y[p++]=i;
		for(i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
		for(i=0;i<n;i++) wv[i]=x[y[i]];
		for(i=0;i<m;i++) ws[i]=0;
		for(i=0;i<n;i++) ws[wv[i]]++;
		for(i=1;i<m;i++) ws[i]+=ws[i-1];
		for(i=n-1;i>=0;i--) sa[--ws[wv[i]]]=y[i];
		for(t=x,x=y,y=t,p=1,x[sa[0]]=0,i=1; i<n; i++)
			x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
	}
	return;
}
int sa[MAXN],Rank[MAXN],height[MAXN];
void calheight(const char *r,int *sa,int n) {
	int i,j,k=0;
	for(i=1;i<=n;i++) Rank[sa[i]]=i;
	for(i=0;i<n;height[Rank[i++]]=k)
		for(k?k--:0,j=sa[Rank[i]-1]; r[i+k]==r[j+k]; k++);
	// Unified
	for(int i=n; i>=1; --i) ++sa[i],Rank[i]=Rank[i-1];
}
int main() {
	while(scanf("%s",str)!=EOF) {
		int len=strlen(str);
		da(str,sa,len+1,130);
		calheight(str,sa,len);
		for(int i=1; i<=len; i++) {
			printf("%d:	",i);
			for(int j=i-1; j<len; j++)
				printf("%c",str[j]);
			puts("");
		}
		puts("");
		puts("----After sort---");
		for(int i=1; i<=len; i++) {
			printf("height[%2d ] = %2d 
",i,height[i]);
		}
		puts("");
		puts("---Rank---");
		for(int i=1; i<=len; i++)
			printf("Rank[%2d ] = %2d
",i,Rank[i]);
		puts(---End---);
	}
}

鸣谢:感谢来自博客:http://www.cnblogs.com/crazyacking/p/3988683.html的资料

 算法中用到了基数排序,不会的自学

原文地址:https://www.cnblogs.com/suishiguang/p/6287284.html