机器学习实战笔记--朴素贝叶斯（实例代码）

#coding:utf-8
from numpy import *
#加载文档词向量数据以及相应文档类别，0表示正常言论，1表示侮辱性文字
def loadDataSet():
    postingList = [['my','dog','has','flea','problems','help','please'],
                   ['maybe','not','take','him','to','dog','park','stupid'],
                   ['my','dalmation','is','so','cute','I','love','him'],
                   ['stop','posting','stupid','worthless','garbage'],
                   ['mr','licks','ate','my','steak','how','to','stop','him'],
                   ['quit','buying','worthless','dog','food','stupid']
        ]
    classVec = [0,1,0,1,0,1]
    return postingList,classVec


def createVocabList(dataSet):
    '''
功能：将已知类别文档中出现的词汇 存入到 所有词汇集合，相当于字典 返回其list类型

输入数据类型：列表类型（列表中存储的是列表元素，每篇文档的词汇集合）
输出数据类型：列表类型（字典）
'''
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


def setOfWords2Vec(vocabList,inputSet):
    '''
功能：将输入的文档转成词向量形式，即在字典中所有词汇出现的词频数，出现为1，未出现为0.
输入数据类型：列表类型（字典，存储所有词汇）
              字符串（将要预测的留言）
输出数据类型：列表类型（词向量）

'''
    returnVec =[0]*len(vocabList)
    for word in inputSet:
        #在此函数中有个小疑问：当词向量在字典中出现，则将该文档的词向量对应词索引处置为1，这里假设每条留言中出现的词汇不重复。但如果该词出现多次呢？不是该相加么。。
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print "the word : %s is not in my Vocabulary!" % word
    return returnVec

def trainNB0(trainMatrix, trainCategory):
    '''
功能：计算属于1类对应下的所有词汇出现的词频数（词向量形式），用p1Num存放。0类一样。
      计算属于1类的所有词汇总数，用p1Denom存放。0类一样。
      返回字典词汇的条件概率p0Vect,p1Vect以及文档属于1类的概率pAbusive。p0Vect= [p(w1|c1),p(w2|c1)...p(wn|c1)]
      
输入的数据类型：array列表类型（样本词向量）
                array列表类型（样本对应的类别）
输出的数据类型：列表类型（字典词汇的条件概率0）
                列表类型（字典词汇的条件概率1）
                浮点数（文档属于1类的概率）
'''
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = p1Num/p1Denom
    p0Vect = p0Num/p0Denom
    return p0Vect,p1Vect,pAbusive

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    '''
功能：计算贝叶斯概率公式，忽略分母（因为每个类别的分母相等）。计算技巧是分子变形，使相乘的n个数转换为log每个数相加
      返回留言板的预测类别。
      
输入数据类型：列表（词向量形式）
              列表（字典词汇的条件概率0）
              列表（字典词汇的条件概率1）
              浮点数（文档属于1类的概率）
输出数据类型：整数（预测类别）
'''
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1>p0:
        return 1
    else:
        return 0

def tesingNB():
    '''
功能：调用以上定义的功能函数，训练分类器然后测试两条数据
'''
    listOPosts, listClasses = loadDataSet()
    myVocabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList,postinDoc))
    p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))
    
    testEntry = ['love','my','dalmation']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'Classified as :',classifyNB(thisDoc,p0V,p1V,pAb)
    
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'Classified as :',classifyNB(thisDoc,p0V,p1V,pAb)
    #以下这个例子可以作为感兴趣的点。贝叶斯中的0类，1类正负抵消。并不是出现侮辱性词就判定为侮辱类

    testEntry = ['love','my','dalmation','stupid']
    thisDoc = array(setOfWords2Vec(myVocabList, testEntry))
    print testEntry,'Classified as :',classifyNB(thisDoc,p0V,p1V,pAb)

朴素贝叶斯实例

　　朴素贝叶斯算法之所以称为朴素是因为有个前提假设条件：对于给定样本各属性相互条件独立。也就是说给定一句话 d1=“苹果很好吃”，我们来判定这句话是食物类还是器材类，那如果用朴素贝叶斯算法，就假设了这句话里的每个词（特征）w1=“苹果”，w2=“很”，w3=”好吃”出现的概率是相互独立的，没有依赖的。但我们知道实际上这条假设并不能真正反映现实的规律，因为“苹果”后面往往有很大概率会出现“好吃”，也就是 p(苹果，好吃) = p(苹果)* p(好吃 | 苹果)，但我们现在就假设 p(苹果，好吃) = p(苹果)* p(好吃) 。

　　（据听说数学是世界上最好的语言之一）

设训练样本集分为k类,记为 C= {C₁,C₂ ,…, C_k}，则每个类的先验概率为P(C_i)，i=1,2,...,k, 其值为C_i类的样本数除以训练集总样本数n。对于新样本d，其属于C_i类的条件概率是P(d|C_i)。根据贝叶斯定理，C_i类的后验概率为:

　　P(d)对于所有类均为同一常数，可以忽略。为避免P(C_i)等于0，采用拉普拉斯概率估计:

　　其中|C|为训练集中类的数目，|D_ci|为训练集中属于类C_i的文档数，|D_c|为训练集包含的总文档数。

　　对于待分类文本文档d，本文采用向量空间模型，其基本思想是将每一个文本表示为一个向量d= (w₁,...,w_m)，m是d的特征词个数。贝叶斯算法假设各特征词相互独立。

　　朴素贝叶斯分类器将未知样本归于哪类的依据，如下: