[HNOI2004]L语言

1212: [HNOI2004]L语言

Time Limit: 10 Sec  Memory Limit: 162 MB
Submit: 1507  Solved: 666
[Submit][Status][Discuss]

Description

标点符号的出现晚于文字的出现,所以以前的语言都是没有标点的。现在你要处理的就是一段没有标点的文章。 一段文章T是由若干小写字母构成。一个单词W也是由若干小写字母构成。一个字典D是若干个单词的集合。 我们称一段文章T在某个字典D下是可以被理解的,是指如果文章T可以被分成若干部分,且每一个部分都是字典D中的单词。 例如字典D中包括单词{‘is’, ‘name’, ‘what’, ‘your’},则文章‘whatisyourname’是在字典D下可以被理解的 因为它可以分成4个单词:‘what’, ‘is’, ‘your’, ‘name’,且每个单词都属于字典D,而文章‘whatisyouname’ 在字典D下不能被理解,但可以在字典D’=D+{‘you’}下被理解。这段文章的一个前缀‘whatis’,也可以在字典D下被理解 而且是在字典D下能够被理解的最长的前缀。 给定一个字典D,你的程序需要判断若干段文章在字典D下是否能够被理解。 并给出其在字典D下能够被理解的最长前缀的位置。

Input

输入文件第一行是两个正整数n和m,表示字典D中有n个单词,且有m段文章需要被处理。 之后的n行每行描述一个单词,再之后的m行每行描述一段文章。 其中1<=n, m<=20,每个单词长度不超过10,每段文章长度不超过1M。

Output

对于输入的每一段文章,你需要输出这段文章在字典D可以被理解的最长前缀的位置。

Sample Input

4 3
is
name
what
your
whatisyourname
whatisyouname
whaisyourname
 

Sample Output

14
6
0 整段文章’whatisyourname’都能被理解
前缀’whatis’能够被理解
没有任何前缀能够被理解

 

HINT

 

Source

 

【DP】:

首先令f[i]表示到i的前缀能否被理解,那么答案就是f[i]==1时最大的i。
转移也很简单,如果f[i]==1,这个串就可以从i+1开始匹配一个新单词。

f[i+1]|=f[i-len[pos[j]]+1];{f[0]=1;}

【算法】:

1、暴力trie+hash

2、Aho-Corasick Automata(AC自动机全名,我一定要打一遍)

这里我用的AC自动机。因为今天在练AC自动机

【实现】:

  把读入的单词建成一棵Trie树,然后算匹配(可以不用Aho-Corasick,把Trie的查询修改一下也能算),保留从每一个字符开始被匹配的单词长度,然后挨着跑一遍,如果某个字符的前一个字符能够到达,那就把这个字符加上其对应被匹配的长度的位置也标记为能够到达,最后看最末尾的标记就是答案。

#include<cstdio>
#include<cstring>
#define Sz 26
#define m(s) memset(s,0,sizeof s);
using namespace std;
const int N=210,Z=26,M=1.1e6+5;
int n,m,cnt=1,tr[N][Z],fail[N],q[N],len[N],pos[N];
bool mark[N],f[M];char s[M];
void insert(int id){
    scanf("%s",s);
    int now=1,l=strlen(s);len[id]=l;
    for(int i=0,z;i<l;i++){
        z=s[i]-'a';
        if(!tr[now][z]) tr[now][z]=++cnt;
        now=tr[now][z];
    }
    pos[now]=id;
}
void acmach(){
    for(int i=0;i<Sz;i++) tr[0][i]=1;
    int h=0,t=1,now,p;q[t]=1;fail[1]=0;
    while(h!=t){
        now=q[++h];
        for(int i=0;i<Sz;i++){
            if(!tr[now][i]) continue;
            p=fail[now];
            while(!tr[p][i]) p=fail[p];
            p=tr[p][i];
            fail[tr[now][i]]=p;
            q[++t]=tr[now][i];
        }
    }
}
void solve(){
    //mark标记是为了对重复单词只统计一次
    //而本题“文章”可能出现重复单词;重复的单词也可以进行转移,故不能标mark 
    m(f);/*m(mark);*/f[0]=1;
    scanf("%s",s);
    int now=1,l=strlen(s);
    for(int z,i=0;i<l;i++){
        z=s[i]-'a';
//        mark[now]=1;
        while(!tr[now][z]) now=fail[now];
        now=tr[now][z];
//        if(!mark[now]){
            for(int j=now;j;j=fail[j]){
                f[i+1]|=f[i-len[pos[j]]+1];
            }
//        }
    }
    for(int i=l;~i;i--) if(f[i]){printf("%d
",i);break;}
}
int main(){
    scanf("%d%d",&n,&m);
    for(int i=1;i<=n;i++) insert(i);
    acmach();
    while(m--) solve();
    return 0;
}
原文地址:https://www.cnblogs.com/shenben/p/6548382.html