【语言处理与Python】3.6规范化文本

词干提取器

porter=nltk.PorterStemmer()

lancaster=nltk.LancasterStemmer()

[porter.stem(t) for t in tokens]

[lancaster.stem(t) for t in tokens]

 

词形归并

#WordNet词形归并器删除词缀产生的词

wnl=nltk.WordNetLemmatizer()

[wnl.lemmatize(t) for t in tokens]
原文地址:https://www.cnblogs.com/createMoMo/p/3097123.html