13-垃圾邮件分类2

1.读取

2.数据预处理

实现代码：

import nltk
import csv
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

# 返回词性类别
def get_word_pos(tag):
    if tag.startswith("J"):
        return nltk.corpus.wordnet.ADJ
    elif tag.startswith("V"):
        return nltk.corpus.wordnet.VERB
    elif tag.startswith("N"):
        return nltk.corpus.wordnet.NOUN
    elif tag.startswith("R"):
        return nltk.corpus.wordnet.ADV
    else:
        return nltk.corpus.wordnet.NOUN;

#编写预处理函数
def preprocessing(text):
    #1.进行分词并形成数组 nltk.sent_tokenize(text)按照句子进行分割 nltk.word_tokenize(sent) 对句子进行分词
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    #2.去掉停用词
    stops = stopwords.words("english")#停用词
    tokens = [token for token in tokens if token not in stops]#去掉数组内存在的停用词
    tokens = [token.lower() for token in tokens if len(token) >= 3]#将大写字母变为小写
    #3.词性标注
    tag = nltk.pos_tag(tokens)
    #4.词性还原
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token,pos=get_word_pos(tag[i][1])) for i,token in enumerate(tokens)]
    preprocessed_text = ' '.join(tokens)
    return preprocessed_text            


#读取数据集，获取邮件标签及本身
sms=open('./data/SMSSpamCollection','r',encoding='utf-8')
sms_data=[]
sms_label=[]
csv_reader=csv.reader(sms,delimiter='	')
for line in csv_reader:
    sms_label.append(line[0])
    sms_data.append(preprocessing(line[1]))#对每封邮件做预处理
sms.close()

print("邮件类别:",sms_label)
print("


邮件特征:",sms_data)

　运行结果：

3.数据划分—训练集和测试集数据划分

from sklearn.model_selection import train_test_split

x_train,x_test, y_train, y_test = train_test_split(data, target, test_size=0.2, random_state=0, stratify=y_train)

实现代码：

# 数据划分—训练集和测试集数据划分
import numpy as np
from sklearn.model_selection import train_test_split

sms_data = np.array(sms_data)
sms_label = np.array(sms_label)
# test_size 指定划分的测试集样本占比
x_train, x_test, y_train, y_test = train_test_split(sms_data, sms_label, test_size=0.2, random_state=0,
                                                    stratify=sms_label)
print("原数据集大小：",len(sms_data))
print("训练集大小：",len(x_train))
print("测试集大小：",len(x_test))

　运行结果：

4.文本特征提取

sklearn.feature_extraction.text.CountVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer

sklearn.feature_extraction.text.TfidfVectorizer

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html?highlight=sklearn%20feature_extraction%20text%20tfidfvectorizer#sklearn.feature_extraction.text.TfidfVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer

tfidf2 = TfidfVectorizer()

观察邮件与向量的关系

向量还原为邮件

实现代码：

# 文本特征提取
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()

X_train = vectorizer.fit_transform(x_train)
X_test = vectorizer.transform(x_test)

print(X_train.toarray().shape)
print(X_test.toarray().shape)

print("第一份邮件的特征向量:",X_train.toarray()[0])  #查看第一份邮件的特征向量
va = np.nonzero(X_train.toarray()[0])  # 返回矩阵中非零元素的位置
print("第一份邮件的非零特征向量:",X_train.toarray()[0][va]) # 向量的非零元素的值
dic = vectorizer.vocabulary_ 
print("词汇频数：",dic)#查看词频

运行结果：

4.模型选择

from sklearn.naive_bayes import GaussianNB

from sklearn.naive_bayes import MultinomialNB

说明为什么选择这个模型？

选用多项式模型

因为在这里多项式模型可以以单词为单位，对文本进行分类；

特征为单词，值为单词的出现次数。

实现代码：

# 模型选择
# 多项式分布模型
from sklearn.naive_bayes import MultinomialNB
mnb = MultinomialNB()
mnb.fit(X_train, y_train)
y_mnb_pre = mnb.predict(X_test)
# x_test预测结果
print(y_mnb_pre.shape,y_mnb_pre)

运行结果：

5.模型评价：混淆矩阵，分类报告

from sklearn.metrics import confusion_matrix

confusion_matrix = confusion_matrix(y_test, y_predict)

说明混淆矩阵的含义

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。

混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。

矩阵中的这四个数值，经常被用来定义其他一些度量。

from sklearn.metrics import classification_report

说明准确率、精确率、召回率、F值分别代表的意义

指标的定义：

(1)若一个实例是正类，但是被预测成为正类，即为真正类(True Postive TP)

(2)若一个实例是负类，但是被预测成为负类，即为真负类(True Negative TN)

(3)若一个实例是负类，但是被预测成为正类，即为假正类(False Postive FP)

(4)若一个实例是正类，但是被预测成为负类，即为假负类(False Negative FN）
准确率是我们最常见的评价指标，而且很容易理解，就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好。

精确率表示被分为正例的示例中实际为正例的比例。

实现代码：

# 模型评价：混淆矩阵-confusion_matrix
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

cm = confusion_matrix(y_test, y_mnb_pre)
print(cm)

cr = classification_report(y_test,y_mnb_pre)
print(cr)

# 准确率（正确率）= 所有预测正确的样本/总的样本  （TP+TN）/总
# 精确率 =  将正类预测为正类 / 所有预测为正类 TP/（TP+FP）
# 召回率 = 将正类预测为正类 / 所有正真的正类 TP/（TP+FN）
# F值 = 精确率 * 召回率 * 2 / ( 精确率 + 召回率) （F 值即为精确率和召回率的调和平均值）
    
print('准确率：',(cm[0][0]+cm[1][1])/np.sum(cm))
print('精确率：',cm[0][0]/(cm[0][0]+cm[1][0]))
print('召回率：',cm[0][0]/(cm[0][0]+cm[0][1]))

运行结果：

6.比较与总结

如果用CountVectorizer进行文本特征生成，与TfidfVectorizer相比，效果如何？

CountVectorizer只考虑每个单词出现的频率；然后构成一个特征矩阵，每一行表示一个训练文本的词频统计结果。其思想是，先根据所有训练文本，不考虑其出现顺序，只将训练文本中每个出现过的词汇单独视为一列特征，构成一个词汇表(vocabulary list)，该方法又称为词袋法。

TfidfVectorizer则可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算，还关注其他包含这个词的文本，挖掘更有意义的特征。相较于CountVectorizer更加比较灵活高效，且具有代表性和意义