朴素贝叶斯分类器初探

从期末复习开始颓废了有一阵…………

开始接触机器学习,今天读了一些博客……整理一下思路……主要是自己的理解……所以可能没那么准确……

首先分类器指的是根据一个事物的一些特征来判断事物的类别。

对于一个事物x有类别{y1,y2,...,yn},那么对于类别集中最大的P(yi|x),可以认为x即为yi。所以需要算出每一个P(yi|x),但是这很难直接算出,通过贝叶斯定理P(B|A)=P(A|B)*P(B)/P(A)可以得知P(yi|x)=P(x|yi)*P(yi)/P(x),所有可能性的分母是一样的,所以只需要将分子最大化,P(x|yi)可以通过统计样本得出。

假设x具有a1,a2两种属性,a1和a2取值分别可以为0或1,类别集为{y1,y2},假设a1和a2独立,则P(x|yi)=P(a1|yi)*P(a2|yi)。通过统计样本可以得出以下数值P(y1),P(y2),P(a1=0|y1),P(a1=1|y1),P(a2=0|y1),P(a2=1|y1),P(a1=0|y2),P(a1=1|y2),P(a2=0|y2),P(a2=1|y2),假设x为a1=0,a2=1,所以x为类别y1的概率为:

P(y1|x)=P(x|y1)*P(y1)/P(x)=P(a1=0|y1)*P(a2=1|y1)*P(y1)/P(x)

x为类别y2的公式以此类推。

忽略分母,比较分子的大小之后就可以认为x是概率较大的一类。

原文地址:https://www.cnblogs.com/Apro/p/5194889.html