朴素贝叶斯与垃圾邮件分类

垃圾邮件识别问题,也即对给定样本(包含垃圾邮件,非垃圾邮件)判断是否为垃圾邮件,根据贝叶斯定理:

p(y=1|x)=p(y=1,x)p(x)p(y=0|x)=p(y=0,x)p(x)p(y=1|x)p(y=0|x)=p(y=1,x)p(y=0,x)=p(y=1)p(x|y=1)p(y=0)p(x|y=0)

然后根据朴素贝叶斯的属性间的独立性假设可进一步分解为:

p(y=1|x)p(y=0|x)=p(y=1)ip(xi|y=1)p(y=0)ip(xi|y=0)

p(xi|y=1) 根据贝叶斯公式,又可得:

p(xi|y=1)=p(xi,y=1)p(y=1)

便可将全部不易计算的概率转化为容易计算的形式。

原文地址:https://www.cnblogs.com/mtcnn/p/9422075.html