朴素贝叶斯与垃圾邮件分类

朴素贝叶斯与垃圾邮件分类

垃圾邮件识别问题，也即对给定样本（包含垃圾邮件，非垃圾邮件）判断是否为垃圾邮件，根据贝叶斯定理：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ p (y = 1 | x) = p ( y = 1 , x ) p ( x ) p (y = 0 | x) = p ( y = 0 , x ) p ( x ) \Rightarrow p ( y = 1 | x ) p ( y = 0 | x ) = p ( y = 1 , x ) p ( y = 0 , x ) = p ( y = 1 ) p ( x | y = 1 ) p ( y = 0 ) p ( x | y = 0 )

然后根据朴素贝叶斯的属性间的独立性假设可进一步分解为：

p ( y = 1 | x ) p ( y = 0 | x ) = p ( y = 1 ) \prod i p ( x i | y = 1 ) p ( y = 0 ) \prod i p ( x i | y = 0 )

对 p(xi|y=1) 根据贝叶斯公式，又可得：

p (x i | y = 1) = p ( x i , y = 1 ) p ( y = 1 )

便可将全部不易计算的概率转化为容易计算的形式。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/mtcnn/p/9422075.html