机器学习西瓜书第七章贝叶斯分类器笔记

1、贝叶斯决策理论（Bayesian decision theory）是概率框架下实施决策的基本方法。
2、欲使用贝叶斯判定准则来最小化决策风险，首先要获得后验概率P。
3、极大似然估计（Maximum Likelihood Estimation，简称MLE）是根据数据采样来估计概率分布参数的经典算法。

　　1）、估计类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式，再基于训练样本对概率分布的参数进行估计。
4、基于贝叶斯公式来估计后验概率的主要困难在于：类条件概率是所有属性上的联合概率，难以从有限的训练样本直接估计而得。为了避开这个障碍，朴素贝叶斯分类器（naive Bayes classifier）采用“属性条件独立性假设”（attribute conditional independence assumption）:对已知类别，假设所有属性相对独立。
5、朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率，并为每个属性估计条件概率。
6、为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，在估计概率值时通常要进行“平滑”（smoothing），常用“拉普拉斯修正”（Laplacian correction），从而避免了因训练集样本不充分而导致概率估值为零的问题。
7、拉普拉斯修正实质上假设了属性值与类别均匀分布。
8、因为属性条件独立性假设在现实任务中难以假设成立，所以引入了“半朴素贝叶斯分类器”（semi-navie Bayes classifiers）的学习方法。
9、半朴素贝叶斯分类器思想：适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。所以“独依赖估计”（One-Dependent Estimator，简称ODE）是半朴素贝叶斯分类器最常用的一种策略。
10、贝叶斯网（Bayesian network）亦称“信念网”（belief network），它借助有向无环图（Directed Acyclic Graph，简称DAG）来刻画属性之间的依赖关系，并使用条件概率表（Conditional Probability Table，简称CPT）来描述属性的联合概率分布。
11、贝叶斯网的学习过程：首先就是根据数据集来找出结构最“恰当”的贝叶斯网，由此引入“评分搜索”解决这一问题。我们需要先定义一个评分函数（score function）以此来评估贝叶斯网与训练数据的契合程度，然后基于这个评分函数拉寻找结构最优的贝叶斯网。
12、常用的评分函数通常基于信息论准则，此类准则将学习问题看做一个数据压缩任务，学习的目标是找到一个能以最短编码长度描述训练数据的模型。对贝叶斯学习而言，模型就是一个贝叶斯网。
13、直接根据贝叶斯网定义的联合概率分布来求精确计算后验概率，这样的“精确推断”已被证明是NP难的，此时，需要借助“近似推断”，通过降低精度要求，在有限的时间内求得近似解。在现实应用中，贝叶斯网的近似推断常使用吉布斯采样（Gibbs sampling）来完成，这是一种随机采样方法。
14、EM（Expectation-Maximization）算法是常用的估计参数隐变量的利器，它是一种迭代式方法，其基本思想是：若参数O已知，则可根据训练数据推断出最优隐常量Z的值（E步）；反之，若Z的值已知，则可方便地对参数O做极大似然估计（M步）。
15、贝叶斯分类器（Bayes Classifier）是通过最大后验概率进行单点估计。
贝叶斯学习（Bayesian Learning）是进行分布估计。
16、贝叶斯网为不确定学习和推断提供了基本框架，因其强大的表示能力、良好的可解释性而广受关注。贝叶斯网学习分为结构学习和参数学习两部分。参数学习较为简单，而结构学习被证是NP难问题。