词频统计(总结)

一、序

作业【https://edu.cnblogs.com/campus/nenu/SWE2017FALL/homework/922】是一个关于词频统计的作业。什么叫词频统计呢?词频统计就是输入一些字符串(手动输入或者从指定的文件读取),用程序来统计这些字符串中总共有多少个单词,每个单词出现的次数是多少,单词的总数(记作Total)为不重复的单词数总和。目前只针对英文单词进行统计,不考虑中文。

二、相关博客链接

三、注意的点

(1)一个字符串满足什么样的规则才算一个单词?

常规情况下,从26个字母[a~z]的大写或者小写形式中选择N个字符组成的字符串可以称为一个单词,除此之外的字符都可以认为是不合法或者特殊字符,比如各种标点符合(,。等)、美元符号($)等都应该被程序过滤。

(2)如何对单词的大小写、单/复数、时态进行处理?

拿动词do为例子,do的不同时态有doing,done以及did,do首字母大写为Do或者所有字符都大写为DO,而名词apple的复数为apples。那么do和它不同时态的形式是算作一个单词吗?Do/DO与do算一个单词吗?名词apple的复数apples与apple算作一个单词吗?这些细节也是需要教师在布置词频统计作业时应该注意的地方。

(3)对形如she's,we're,I've这类省略写法的字符串如何处理,算一个单词,还是拆开算两个单词?

通过word对“she's a girl”进行单词统计,会得到三个单词。因此可以推测形如she's的省略词组在word中算作一个单词。当然,如果,规定she's这类省略词组应该拆开为she和is,这也是合理的。

(4)连字符“-”这类单词算一个单词,还是两个单词?

通过word对“long-distance telephone”进行单词统计,会得到两个个单词。因此可以推测在word中连字符“-”连接的N个单词算作一个单词。同样如注意点(3),如果强制要求连字符“-”连接的N个单词不能算作一个整体,同样合理。

原文地址:https://www.cnblogs.com/ranh941/p/7828599.html