python学习之nltk、文本预处理

一、nltk(链接中为nltk的官方网站,包含了各种库的说明)

1、nltk.stem:词型转换,eg:from nltk.stem import WordNetLemmatizer  (do、did、done都能统一的返回do)

2、nltk.corpus:nltk的语料库,eg:from nltk.corpus import stopwords  获得英语中的停止词(比如'the'、'is'、'at'、'which'、'on'等)

 中英文停止词表(stopword)

二、可能用到的函数

1、os.listdir(path)

用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。

只支持在 Unix, Windows 下使用。

 2、str.strip([chars])

Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。

3、str.lower()

Python lower() 方法转换字符串中所有大写字符为小写。

4、filter(function, iterable)  (function -- 判断函数、iterable -- 可迭代对象)  返回列表

filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回由符合条件元素组成的新列表。

该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。

5、map(function, iterable, ...)  (function -- 函数,有两个参数、iterable -- 一个或多个序列)  返回列表

map() 会根据提供的函数对指定序列做映射。

第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。

优秀文章一优秀文章二

------------------------------------------------------------------------------ --------------------------------------------------------------------------------------- WeChat:wjw18326000942 Email:jwwang18326000942@163.com
原文地址:https://www.cnblogs.com/RescueWang/p/7846215.html