西瓜书机器学习算法脉络梳理之贝叶斯分类器

贝叶斯决策论：贝叶斯分类器的理论基础。

什么是贝叶斯决策论？

寻找判定准则，即贝叶斯判定准则（decision rule），使总体风险最小化；即在每个样本选择那个能使条件风险最小的类别标记。就是对每个样本选择使后验概率最大的分类器

可通过贝叶斯定理获得后验概率，从而转为对类条件概率（似然）的求解

如何估计类条件概率？

一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。极大似然估计（Maximum Likelihood Estimation, MLE）是来自频率主义学派，根据数据采样来估计概率分布参数的经典方法。

类条件概率是所有属性上的联合概率，难以从有限的训练样本直接估计得到，那如何做？

1. 朴素贝叶斯分类器的做法是属性条件独立性假设（attribute conditional independence assumption），即对已知类别，假设所有属性相互独立。

现实任务中，这个假设往往很难成立

2. 半朴素贝叶斯分类器对属性条件独立性假设进行一定程度的放松，适当考虑一部分属性间的相互依赖信息，从而既不需进行完全联合概率计算，又不至于彻底忽略比较强的属性依赖关系。如独依赖估计（One-Dependent Estimator, ODE）策略，即假设每个属性在类别之外，最多仅依赖一个其他属性。具体算法有SPODE(Super ODE)、TAN(Tree Augmented naïve Bayes)、AODE(Averaged One-Dependent Estimator)。

3. 贝叶斯网（Bayesian network），即信念网（belief network），刻画属性之间的依赖关系，并使用条件概率表（Conditional Probability Table, 简称CPT）来描述属性的联合概率分布。

那在存在“未观测”变量（隐变量）的情形下，如何对模型参数进行估计？

EM 算法

参考资料

[1] 周志华. 机器学习. 北京：清华大学出版社. 2016.147-170