AC自动机

Aho-Corasick automaton是一种用于多模板串匹配文本串的算法。是KMP算法与Trie树的结合。

来看一个经典的例子,要求在一段文字中找到给定单词列表中的所有单词,你会怎么办?可以对每个单词跑一遍KMP,但是复杂度极高。比较好的做法是用AC自动机。

AC自动机可以认为是将多个模板串建成Trie树,然后利用KMP的“失配指针”思想,去匹配文本串。

根据上面说的,AC自动机有3个主要环节。一、建Trie树。这和建普通的Trie树基本没有区别。二、得到每个非根结点的失配指针。先将所有的fail指针初始化为指向根结点。对于根结点的孩子,让其fail指针指向根结点即可。除此之外,每个结点的fail指针由其父亲的fail指针得到,即fail[ch[u][i]]=ch[fail[u]][i];但是,如果其父亲的fail指针指向的结点没有和当前结点代表字符一样的孩子,又该怎么办呢?可以从一开始就让那些指向不存在的孩子的指针去指向该结点的fail指针指向结点的对应孩子。相当于简化了过程,你发现接下来“无路可走”了,那么就去到最近的“有路可走”处,最多也就回到根结点。三、匹配文本串。我们按照文本串,在Trie树上走,每走到一个结点,都会再去不断沿着fail指针到根结点,将途中遇到的匹配统计下来。比如,匹配到了she,那么同时也匹配到了he。

 1 struct AC_automaton {
 2     int ch[maxn][maxc],fail[maxn],cnt[maxn],num;
 3     //与Trie树相比只是多了fail数组
 4     AC_automaton() {
 5         memset(ch,-1,sizeof(ch)); //ch全部初始化为-1
 6         memset(fail,0,sizeof(fail));
 7         memset(cnt,0,sizeof(cnt));
 8         num=0;
 9     }
10     void insert(char* s) {
11         int u=0;
12         for(int i=0;s[i];++i) {
13             if(ch[u][s[i]-'a']==-1) ch[u][s[i]-'a']=++num;
14             u=ch[u][s[i]-'a'];
15         }
16         ++cnt[u]; //插入和Trie树基本相同
17     }
18     void build() { //建立失配指针
19         queue<int> q; //BFS
20         for(int i=0;i<maxc;++i) { //根节点特殊处理
21             if(ch[0][i]==-1) ch[0][i]=0;
22             else q.push(ch[0][i]);
23         }
24         while(!q.empty()) {
25             int u=q.front();q.pop();
26             for(int i=0;i<maxc;++i) {
27                 if(ch[u][i]==-1) ch[u][i]=ch[fail[u]][i]; //没有这个孩子,则可以让其向上找
28                 else {
29                     fail[ch[u][i]]=ch[fail[u]][i]; //孩子的失配指针由父亲得到
30                     q.push(ch[u][i]);
31                 }
32             }
33         }
34     }
35     int count(char* s) { //统计文本串中出现过多少次模板串(可重复)
36         int u=0,ans=0;
37         for(int i=0;s[i];++i) {
38             u=ch[u][s[i]-'a'];
39             int tmp=u;
40             while(tmp) { //不断向上找
41                 ans+=cnt[tmp];
42                 // cnt[tmp]=0;
43                 //加上这一句代表在文本串中出现过多少个模板串(不重复)
44                 tmp=fail[tmp];
45             }
46         }
47         return ans;
48     }
49 };
原文地址:https://www.cnblogs.com/Mr94Kevin/p/9664993.html