语言计算：文本和词汇

1、搜索文本

　　text1.concordance( )

concordance：著作或作家全集的重要用字索引

可以显示指定单词的出现情况，同时还可以显示一些上下文

　　text1.similar( )

可以查到还有哪些词出现在相似的上下文中

　　text1.common_contexts( [ “...”, “...” ] )

研究共用两个或两个以上词汇的上下文

　　text1.generate( )

根据text1的文本风格自动生成一些随机文本

2、计数词汇

先理解几个概念：

标识符：单词和标点符号

词类型：一个词在文本中独一无二的出现或拼写形式

　　len( text1 )

计算文本中标识符的个数，会有重复，因为计算的是序列出现的次数

　　len( set(text1) )

计算文本中标识符的个数，不会重复计数，因为集合中重复的元素都只算一个

3、简单的统计

FreqDist( text1 )

频率分布函数，能够获得文本中出现频率高的标识符

调用该函数能够获得一个含key 和 value的字典，key是单词，value是个数

set( text1 ) 将文本单词放入集合中，确保无重复

词语搭配：

text1.collocations( ) 查找到频繁出现的双连词

4、决策与控制

条件语句：

[ w for w in sent if condition]

词汇比较函数：

s.startswith( t ) 以t开头

s.endswith( t ) 以t结尾

t in s 是否包含t

s.islower( )

s.isupper( )

s.isalpha( ) 所有字符是字母

s.isalnum( ) 字母或数字

s.isdigit( )

s.istitle( ) 首字母大写

举例如下：

[w for w in set(text1) if w.endswidth('ment') ] 在text1单词存放的set集合中，查找以ment结尾的单词