1337：【例32】单词查找树

时间限制: 1000 ms 内存限制: 65536 KB
提交数: 1732 通过数: 910

【题目描述】

在进行文法分析的时候，通常需要检测一个单词是否在我们的单词列表里。为了提高查找和定位的速度，通常都画出与单词列表所对应的单词查找树，其特点如下：

1．根结点不包含字母，除根结点外每一个结点都仅包含一个大写英文字母；

2．从根结点到某一结点，路径上经过的字母依次连起来所构成的字母序列，称为该结点对应的单词。单词列表中的每个单词，都是该单词查找树某个结点所对应的单词；

3．在满足上述条件下，该单词查找树的结点数最少。

4．例如图3-2左边的单词列表就对应于右边的单词查找树。注意，对一个确定的单词列表，请统计对应的单词查找树的结点数（包含根结点）。

在这里插入图片描述

【输入】

为一个单词列表，每一行仅包含一个单词和一个换行/回车符。每个单词仅由大写的英文字母组成，长度不超过63个字母。文件总长度不超过32K，至少有一行数据。

【输出】

仅包含一个整数，该整数为单词列表对应的单词查找树的结点数。

【输入样例】

A
AN
ASP
AS
ASC
ASCII
BAS
BASIC

【输出样例】

【来源】

算法分析

首先要对建树的过程有一个了解。

对于当前被处理的单词和当前树：在根节点的子结点中找单词的第一位字母，若存在，则进位在该节点的子结点中寻找第二位…

如此下去直到单词结束，即不需要在该树中添加节点；

或单词的第n位不能被找到，即将单词的第n位及其后的字母依次加入单词查找树中去。

但是，本题只是问节点总数，且有32K文件，所以应该考虑能不能不通过建树就直接算出节点总数。

定义一个单词相对于另一个单词的差：设单词1的长度为L,且与单词2从第N位开始不一致，则说单词1相对于单词2的差为L-N+1；，这是描述单词相似程度的量。

可见，将一个单词加入单词树的时候，须加入的节点等于该单词树中已有单词的差的最小值。

单词的字典顺序排序后的序列则具有类似的特性，即在一个字典顺序序列中，第m个单词相对于第m-1个单词的差必定是它对于前m-1个单词的差中最小的。

于是，得出建树的等效算法：
1.读入文件；
2.对单词列表进行字典顺序排序；
3.依次计算每个单词对前一单词的差，并把差累加起来。注意：第一个单词相对于“空”的差为该单词的长度；
4.累加和再加上1（根节点），输出结果。

数据结构

先确定32K（32*1024=32768字节）的文件最多有多少单词和字母。

当然应该尽可能地存放较短的单词。

因为单词不重复，所以长度为1的单词（单个单词）最多26个；长度为2的单词最多为26*26=676个；因为每个单词都要一个换行符（换行符在计算机中占两个字节），所以总共已经占用的空间：（1+2）×26+（2+2）×676=2782字节；剩余字节（32768-2782=29986字节）分配给长度为3的单词（长度为3的单词最多有26×26×26=17576个）有29986/（3+2）=5997。

所以单词数量最多为26+676+5997=6699.

定义一个数组：string a[32768]；把所有单词连续存放起来，用选择排序或快排对单词进行排序。

代码

#include <iostream>
#include <cstdio>
#include <string>
using namespace std;
int i,j,n,t,k;
string a[8001];
string s;
int main ()
{
	while(cin>>a[++n]);    
	n--;
	for(i=1;i<n;i++)
	{
		for(j=i+1;j<=n;j++)
		{
			if(a[i]>a[j])
			{
				s=a[i];
				a[i]=a[j];
				a[j]=s;
			}
		}
	}
	t=a[1].length();
	for(i=2;i<=n;i++)
	{
		j=0;
		while(a[i][j]==a[i-1][j]&&j<a[i-1].length()) j++;
		t+=a[i].length()-j;
	}
	cout<<t+1<<endl;
	return 0;
}