后缀自动机总结

后缀自动机总结

鉴于我觉得也没有人会看我这份总结学SAM,所以这里索性就只放一个板子了。
核心代码在这里:

const int N = 2e5+5;
int n,tr[N][26],fa[N],len[N],last=1,tot=1;
void extend(int c)
{
	int v=last,u=++tot;last=u;
	len[u]=len[v]+1;
	while (v&&!tr[v][c]) tr[v][c]=u,v=fa[v];
	if (!v) fa[u]=1;
	else{
		int x=tr[v][c];
		if (len[x]==len[v]+1) fa[u]=x;
		else{
			int y=++tot;
			memcpy(tr[y],tr[x],sizeof(tr[y]));
			fa[y]=fa[x];fa[x]=fa[u]=y;len[y]=len[v]+1;
			while (v&&tr[v][c]==x) tr[v][c]=y,v=fa[v];
		}
	}
}

几个需要注意的地方:
1、(N)的大小要开两倍。
2、(last,tot)的初值是(1)
3、在字符集比较大的时候(tr)转移可以开(map),空间复杂度更优秀尽管加那么一点点常数。
4、一个状态的(endpos)集合大小就是沿(fa)建树后的子树大小。建树的过程往往可以用基数排序代替:

for (int i=1;i<=tot;++i) ++t[len[i]];
for (int i=1;i<=tot;++i) t[i]+=t[i-1];
for (int i=1;i<=tot;++i) a[t[len[i]]--]=i;
for (int i=tot;i;--i) sz[fa[a[i]]]+=sz[a[i]];

5、一个状态的(longest)就是(len)(shortest)则是(fa.len+1)。所以串中一共有多少个不同子串的答案就是(sum_{i=1}^{tot} len[i]-len[fa[i]])

广义后缀自动机

这玩意儿可以用来实现多个样本串的匹配。
讲的厉害一点:后缀自动机的(endpos)集合是基于原序列(原字符串就是一个一维的序列嘛),而广义后缀自动机的(endpos)集合则是基于(Trie)树上的节点。
讲的好厉害的样子,其实板子还是一样的,就是从哪里开始插入就把(last)的值赋到哪里。
比如说多个串的插入:

for (int i=1;i<=n;++i)
{
	scanf("%s",s+1);
	last=1;
	for (int j=1,l=strlen(s+1);j<=l;++j) extend(s[j]-'a');
}

其他的就以后再补吧。。。

原文地址:https://www.cnblogs.com/zhoushuyu/p/8660117.html