hdu 3065(AC自动机)

病毒侵袭持续中

Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)
Total Submission(s): 10613    Accepted Submission(s): 3747


Problem Description
小 t非常感谢大家帮忙解决了他的上一个问题。然而病毒侵袭持续中。在小t的不懈努力下,他发现了网路中的“万恶之源”。这是一个庞大的病毒网站,他有着好多 好多的病毒,但是这个网站包含的病毒很奇怪,这些病毒的特征码很短,而且只包含“英文大写字符”。当然小t好想好想为民除害,但是小t从来不打没有准备的 战争。知己知彼,百战不殆,小t首先要做的是知道这个病毒网站特征:包含多少不同的病毒,每种病毒出现了多少次。大家能再帮帮他吗?
 
Input
第一行,一个整数N(1<=N<=1000),表示病毒特征码的个数。
接下来N行,每行表示一个病毒特征码,特征码字符串长度在1—50之间,并且只包含“英文大写字符”。任意两个病毒特征码,不会完全相同。
在这之后一行,表示“万恶之源”网站源码,源码字符串长度在2000000之内。字符串中字符都是ASCII码可见字符(不包括回车)。
 
Output
按以下格式每行一个,输出每个病毒出现次数。未出现的病毒不需要输出。
病毒特征码: 出现次数
冒号后有一个空格,按病毒特征码的输入顺序进行输出。
 
Sample Input
3 AA BB CC ooxxCC%dAAAoen....END
 
Sample Output
AA: 2 CC: 1
Hint
Hit: 题目描述中没有被提及的所有情况都应该进行考虑。比如两个病毒特征码可能有相互包含或者有重叠的特征码段。 计数策略也可一定程度上从Sample中推测。
 
Source
 
题解:AC自动机多模式匹配,两个坑点
1:gets读入
2:由于目标串中匹配的时候有很多字符,但是你又不能去掉他们,但是next数组开到127的话太消耗内存,我的做法除了 'A'-'Z' 的字符之外的所有字母都变成 'Z'+1 ,这样的话只要开 next[27] 就够了。
给一组数据:
2
A
AB
A@B
输出
A: 1
#include <iostream>
#include <cstdio>
#include <cstring>
#include <queue>
#include <algorithm>
using namespace std;
const int N = 2000005;
struct Node
{
    Node *fail;
    Node *next[27];
    int id,cnt;
    Node()
    {
        fail = NULL;
        id = 0;
        cnt = 0;
        memset(next,NULL,sizeof(next));
    }
};
char T[1005][55];
char str[N];
int _cnt[1005];
void buildTrie(char *str,Node *root,int id)
{
    Node *p = root,*q;
    int len = strlen(str);
    for(int i=0; i<len; i++)
    {
        int idx = str[i]-'A';
        if(p->next[idx]==NULL) p->next[idx]=new Node();
        p = p->next[idx];
    }
    p->id = id;
}
void build_AC_automation(Node *root)
{
    queue<Node*> q;
    root->fail = NULL;
    q.push(root);
    while(!q.empty())
    {
        Node *p = NULL;
        Node *temp = q.front();
        q.pop();
        for(int i=0; i<27; i++)
        {
            if(temp->next[i]!=NULL)
            {
                if(temp==root) temp->next[i]->fail=root;
                else
                {
                    p=temp->fail;
                    while(p!=NULL)
                    {
                        if(p->next[i]!=NULL)
                        {
                            temp->next[i]->fail=p->next[i];
                            break;
                        }
                        p=p->fail;
                    }
                    if(p==NULL) temp->next[i]->fail=root;
                }
                q.push(temp->next[i]);
            }
        }
    }
}
void query(char *str,Node *root)
{
    int len = strlen(str);
    Node *p = root;
    for(int i=0; i<len; i++)
    {
        if(str[i]<'A'||str[i]>'Z') str[i]='Z'+1;
        int idx = str[i]-'A';
        while(p->next[idx]==NULL&&p!=root) p = p->fail;
        p = p->next[idx];
        p = (p==NULL)?root:p;
        Node * temp = p;
        while(temp!=root)
        {
            if(temp->id!=0)
            {
                temp->cnt++;
                _cnt[temp->id] = temp->cnt;
            }
            temp = temp->fail;
        }
    }
}
int main()
{
    int n;
    while(scanf("%d",&n)!=EOF)
    {
        Node *root = new Node();
        memset(_cnt,0,sizeof(_cnt));
        scanf("%d",&n);
        for(int i=1; i<=n; i++)
        {
            scanf("%s",T[i]);
            buildTrie(T[i],root,i);
        }
        getchar();
        build_AC_automation(root);
        gets(str);
        query(str,root);
        for(int i=1; i<=n; i++)
        {
            if(_cnt[i])
            {
                printf("%s: %d
",T[i],_cnt[i]);
            }
        }
    }
    return 0;
}
原文地址:https://www.cnblogs.com/liyinggang/p/5678241.html