对机器学习中朴素贝叶斯的理解

通常我们会根据样本X来推断属于某一类的概率,这个概率就叫后验概率P(c|x),概率最大的类就是我们要的结果。

其实,这个结果只是一种特例,最大化后验概率是最小化误判风险的一种情况,具体来说是误判损失为1的情况。

不管怎样,我们都需要求取后验概率,根据贝叶斯定理,后验概率可以由先验概率和类条件概率求出,先验概率可以根据属于某一类的样本数占总样本数的比例直接估计,剩下的问题在于求类条件概率。

当样本数有限时,样本X很难出现在训练集中,即P(x|c)为0,但是在训练集中没有出现不代表在整个样本的分布空间中不存在,所以不能根据样本出现的次数来直接估计。

这时候可以采用极大似然法,假定样本符合某一分布,例如正态分布,然后根据训练集样本来估计正态分布的均值和方差,而这个是有公式的。

不过这样做的问题在于,我们对样本的概率分布完全是猜测,并不一定与真实分布吻合,或者说很大可能不会吻合,哪有这么巧的事,样本就满足正态分布呢。

这个时候,朴素贝叶斯登场了。

类条件概率P(x|c)是所有属性的联合概率,难以从有限的样本直接估计得到,为避开这个问题,朴素贝叶斯采用属性条件独立性假设,对已知类别,假设所有属性相互独立。

即P(x|c) = P(x1|c)*P(x2|c)*P(x3|c)*...P(xn|c)

如何求每个属性的类条件概率呢,对于离散属性,我们直接计算含有该属性的样本数就好了,对于连续属性,我们可以假定一个正态分布,均值和方差即为某一类样本在某属性上的均值和方差。

有两篇博客讲的很直观明了

https://blog.csdn.net/amds123/article/details/70173402#commentBox

https://blog.csdn.net/fuqiuai/article/details/79458943

补充~ 一个利用贝叶斯定理的现实例子

已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

原文地址:https://www.cnblogs.com/wzyuan/p/10287630.html