关于处理英文文章的想法（完整代码后发）

英语的26个英文字母在一部小说里的分布频率是怎样的？某类型文章中最常出现的单词是什么？如此等等的问题，如果不想一个个数的话，只能求助于程序了。

但问题又出现了，怎样才能将一篇文章统计出来呢？我的想法是将文章以空格为界，分割成一个个字符串，储存进入数组中，于是，就可以利用数组下标来进行比较统计。但是如果细分，一篇文章中还有逗号，句号，问号等等号，如果不将这些号去掉，那么系统会判断Finally和Finally,是不同的单词。那我的统计就会出现水分了，所以我还要将这些号去掉。这样就可以使用单词进行比较了。