Scikit-learn 库的使用

1. 与文本处理相关的库

　　1. 对语料库提取特征词集合

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
#下面的语句初始化 TfidfVectorizer 对象，传入参数有 max_df (df比率大于其的单词进行过滤，停用词，特征词的数量）
vectorizer = TfidfVectorizer(max_df=_max_df, stop_words={
                                     'english'}, max_features=_vocab_size)
vectorizer.fit(corpus)
#通过vectorizer.vocabulary_可以访问特征词的字典，键为特征词，值为特征词在词袋子列表中的下标
vocal = vectorizer.vocabulary_

#初始化向量统计对象，使用指定的词袋子。否则会自动将语料库中所有长度大于等于2的单词作为词袋子中的成员
baseline_vectorizer = CountVectorizer(vocabulary=vocab)
#对语料库二维列表进行特征词统计
X_base = baseline_vectorizer.fit_transform(corpus)

2. 稀疏矩阵

　　1. 压缩稀疏矩阵行格式(CSR)

from spicy.sparse.csr import car_matrix
#rating 列表存储稀疏矩阵的值，(user, item) 组成其对应的行列下标
R = car_matrix(rating, (user, item))

　　使用压缩稀疏行矩阵可以快速的对行进行遍历，得到每行的结果。如果需要对列进行遍历，最好先将其转换为CSC矩阵，使用 tocsc() 成员函数。