【不同子串个数】

这是(sa)的经典题目了

我们都知道答案就是

[sum_{i=1}^nn+1-sa[i]-het[i] ]

我们尝试理解一下这个东西

首先(n+1-sa[i])表示的是排名为(i)的这个后缀能形成的子串个数是多少个,也就是从(sa[i])位置开始的子串

之后减掉(het[i])表示减掉的是和排名为(i-1)的后缀相同的子串

还有一个巧妙的性质,就是我们这样得到的本质不同的子串都是有序的

非常显然因为(sa)是有序的

#include<iostream>
#include<cstring>
#include<cstdio>
#include<algorithm>
#define re register
#define LL long long
#define maxn 500005
#define max(a,b) ((a)>(b)?(a):(b))
#define min(a,b) ((a)<(b)?(a):(b))
inline int read()
{
    re char c=getchar();int x=0;
    while(c<'0'||c>'9') c=getchar();
    while(c>='0'&&c<='9') x=(x<<3)+(x<<1)+c-48,c=getchar();return x;
}
char S[maxn];
int sa[maxn],rk[maxn],het[maxn],tp[maxn],tax[maxn];
int n,m;
LL ans;
inline void qsort()
{
    for(re int i=0;i<=m;i++) tax[i]=0;
    for(re int i=1;i<=n;i++) tax[rk[i]]++;
    for(re int i=1;i<=m;i++) tax[i]+=tax[i-1];
    for(re int i=n;i;--i) sa[tax[rk[tp[i]]]--]=tp[i];
}
int main()
{
    scanf("%d",&n),scanf("%s",S+1);m=255;
    for(re int i=1;i<=n;i++) rk[i]=S[i],tp[i]=i;
    qsort();
    for(re int w=1,p=0;p<n;m=p,w<<=1)
    {
        p=0;
        for(re int i=1;i<=w;i++) tp[++p]=n-w+i;
        for(re int i=1;i<=n;i++) if(sa[i]>w) tp[++p]=sa[i]-w;
        qsort();
        for(re int i=1;i<=n;i++) std::swap(rk[i],tp[i]);
        rk[sa[1]]=p=1;
        for(re int i=2;i<=n;i++) rk[sa[i]]=(tp[sa[i-1]]==tp[sa[i]]&&tp[sa[i-1]+w]==tp[sa[i]+w])?p:++p;
    }
    int k=0;
    for(re int i=1;i<=n;i++)
    {
        if(k) --k;
        int j=sa[rk[i]-1];
        while(S[i+k]==S[j+k]) ++k;
        het[rk[i]]=k;
    }
    for(re int i=1;i<=n;i++) ans+=n+1-sa[i]-het[i];
    printf("%lld
",ans);
    return 0;
}

这个题自然还有(SAM)的做法

我们可以把(SAM)的那张拓扑图上路径数求出来,这样当然是本质不同的子串个数了

但是我们考虑一下(parent)树也可以表示所有子串

(parent)树上一个节点(i)表示的是(len(link(i))+1)(len(i))这些长度的某个前缀的后缀

这些前缀的后缀一定是不一样的,大胆放心加起来就好了

[sum_{i=1}^n len(i)-len(link(i)) ]

代码

#include<cstdio>
#include<iostream>
#define maxn 100005
#define re register
int n,cnt=1,lst=1;
long long ans;
char S[maxn];
int fa[maxn<<1],len[maxn<<1],son[maxn<<1][26];
inline void ins(int c)
{
	int f=lst,p=++cnt; lst=p;
	len[p]=len[f]+1;
	while(f&&!son[f][c]) son[f][c]=p,f=fa[f];
	if(!f) {fa[p]=1;return;}
	int x=son[f][c];
	if(len[f]+1==len[x]) {fa[p]=x;return;}
	int y=++cnt;
	len[y]=len[f]+1,fa[y]=fa[x],fa[x]=fa[p]=y;
	for(re int i=0;i<26;i++) son[y][i]=son[x][i];
	while(f&&son[f][c]==x) son[f][c]=y,f=fa[f];
}
int main()
{
	scanf("%d",&n),scanf("%s",S+1);
	for(re int i=1;i<=n;i++) ins(S[i]-'a');
	for(re int i=2;i<=cnt;i++) ans+=(long long)(len[i]-len[fa[i]]);
	printf("%lld
",ans);
	return 0;
}
原文地址:https://www.cnblogs.com/asuldb/p/10207919.html