机器学习总结（七）朴素贝叶斯

朴素贝叶斯

是基于贝叶斯定理和特征条件独立假设的分类方法对于给定的训练数据集，首先基于特征条件独立假设学习输入输出的联合概率分布。然后基于此模型，对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。

先介绍两个概念：先验概率，是指基于已有知识对随机事件进行概率预估，但不考虑任何相关因素。而后验概率基于已有知识对随机事件进行概率预估，并考虑相关因素。

基本方法

给定数据集，x属于n维的向量集合，y属于类别标记集合。朴素贝叶斯的法通过训练数据集，学习联合概率分布P（X，Y）。而联合概率分布是通过先验概率分布和条件概率分布实现的。

先验概率分布：

条件概率分布：

其中条件概率分布在实际估计时，有指数级的参数。朴素贝叶斯对条件概率分布做了条件独立性的假设。做了条件独立性假设后，条件概率可表示为：

条件独立假设就是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使得朴素贝叶斯估计变得简单。

朴素贝叶斯在分类时, 对于给定的输入x，由模型计算后验概率分布，将后验概率最大的类作为x的类输出。后验概率根据贝叶斯定理进行：

，k=1,2,3,4...K

上式中的分母对于所有C_k都一样，所以朴素贝叶斯可写成

可以证明朴素贝叶斯法将实例分到后验概率最大的类中，等价于0-1损失函数时的期望风险最小化。

朴素贝叶斯中和的估计可采用极大似然估计或者贝叶斯估计。其中贝叶斯估计可解决极大似然估计可能出现的概率值为0的情况。

总结：

朴素贝叶斯法学习到的是生成数据的机制，属于生成模型。由于其条件独立性的基本假设，使得其学习和预测变得简单，因此该算法高效，易于实现。其缺点是分类的性能不一定很高。