【举个栗子】我对贝叶斯分类的理解

先说结论，贝叶斯分类=最大化后验概率。

给定样本(x)和所属类别(c)，贝叶斯最优分类器欲最大化后验概率(P(c|x))。想实现这个目的可以通过判别模型（如决策树、支持向量机等，直接对后验概率建模），或生成模型（对联合概率(P(x,c))建模）。

对于生成模型，考虑：

[P(c|x)=frac{P(x,c)}{P(x)} ]

根据贝叶斯公式：

[P(c|x)=frac{P(c)P(x|c)}{P(x)} varpropto P(c)P(x|c) ]

问题转化为根据训练数据来学习先验概率(P(c))和似然值(P(x|c))。

先验概率是好求的，根据大数定律，只要样本足够多，那么(P(c))近似等于各类别样本占样本空间样本数的比例。

(P(x|c))涉及到关于(x)所有属性的联合概率，直接根据频率估计是不行的，属性空间的所有可能事件往往远大于样本空间。求似然值(P(x|c))一般用极大似然估计，假设其服从某种分布，然后从训练数据中学习分布参数。缺点就是需要对这种分布做出很好的估计，否则学习效果欠佳。

为了避开似然(P(x|c))所有属性联合概率这个障碍，朴素贝叶斯分类器就假设所有属性相互独立，半朴素贝叶斯分类器假设属性间有依赖，但只依赖一个“父属性”，贝叶斯网则用有向无环图(mathcal DAG)刻画属性间的依赖关系，并使用条件概率表描述属性间的联合概率分布。一个贝叶斯网由结构(B)和参数(Theta)构成，参数学习简单，而结构学习则是NP难问题，两种方法近似求解最优网络结构：（1）贪心法，每次调整一条边直到评分函数不再变化（评分函数的设计包含了我们对模型的归纳偏好）（2）给网络结构施加约束减少搜索空间，比如限定为树形结构。贝叶斯网的推断也是NP难问题，一般近似推断常用吉布斯采样，或者变分推断。