用c语言实现文本文件中的字符筛选分析（一）

　　近期遇到这样一个问题：写一个程序，分析一个文本文件（英文文章）中各个词出现的频率，并且把频率最高的10个词打印出来。

　解决这个问题我认为要解决这样几个问题：

　　1）如何实现文本文件中数据的有效读取；（这个本人对文件操作不太熟练，所以单独拿出来当做一个问题）

　　2）如何从读出的数据中分析出一个一个的单词；

　　3）如何累计计算出每个单词的出现次数；

　　4）如何为每词出现的次数排序，打印出出现次数前10的单词；

　　5）算法的效率问题，即对整个文本文件中数据的遍历次数；

　　初步代码如下：　　

#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#define MAX 1000000
void main(){
struct Word{
char word_str[20];
int mount;
}word[MAX],temp;
FILE *fp;
char ch;
int flag=0;//指示前一个字符是不是非英文字母字符，前一个字符是非英文字母置flag=0，不是非英文flag=1
int i=0,j=0,k=0;//计数
for(i=0;i<MAX;i++){//初始化各单词数量为0
word[i].mount=0;
}
i=0;
if((fp=fopen(".\eng.txt","r+"))==NULL){
printf("无法打开此文件");
exit(0);
}
while(ch!=EOF){//这里对于处理最后一个符号不是非英文字母的文章有bug，有改进空间
ch=fgetc(fp);
if(((ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z'))!=0){
flag=0;
i++;
j=0;
  for(k=0;k<i-1;k++){
   if(strcmp(word[i-1].word_str,word[k].word_str)==0){
   word[k].mount++;
   i=i-1;
   break;
   }
  }
}
else{
flag=1;
word[i].word_str[j]=ch;
word[i].word_str[j+1]='';
j++;
}
}
fclose(fp);
for(k=0;k<=i-1;k++){
  for(j=k+1;j<=i-1;j++){
   if(word[k].mount<word[j].mount){
   temp=word[k];
   word[k]=word[j];
   word[j]=word[k];
   }
  }
}
printf("下面输出使用频率最高的10个单词（相等频率超出10个不计） ");
for(k=0;k<10;k++){
printf("%s ",word[k].word_str);
}
}

运行没有错误，但是不出结果，很是郁闷。3个小时的成果，也就这样。下周继续吧。

然后希望有编程高手大大指点一下O.o (如果您有时间想指点小子，请联系qq：1766388993)

TO BE CONTINUED...