关于处理英文文章的想法(完整代码后发)

  英语的26个英文字母在一部小说里的分布频率是怎样的?某类型文章中最常出现的单词是什么?如此等等的问题,如果不想一个个数的话,只能求助于程序了。

  但问题又出现了,怎样才能将一篇文章统计出来呢?我的想法是将文章以空格为界,分割成一个个字符串,储存进入数组中,于是,就可以利用数组下标来进行比较统计。但是如果细分,一篇文章中还有逗号,句号,问号等等号,如果不将这些号去掉,那么系统会判断Finally和Finally,是不同的单词。那我的统计就会出现水分了,所以我还要将这些号去掉。这样就可以使用单词进行比较了。

原文地址:https://www.cnblogs.com/YXSZ/p/9776061.html