贝叶斯网络

贝叶斯分类器

频率学派和贝叶斯学派分歧：

频率学派认为参数虽然未知，但是是客观存在的固定值，可通过优化似然函数确定固定值；
贝叶斯学派认为参数是未观察到的随机变量，本身也有分布，因此可假设参数的先验分布，根据观察到的数据计算参数的后验分布；

贝叶斯公式

[P(y|x)=frac{P(y)P(x|y)}{P(x)} ]

其中 (P(y)) 是先验概率，(P(x|y)) 为似然，(P(x)) 是归一化的证据因子。

P(y) 表示样本空间中，样本所占的比列，根据大数定律，当训练集包含充足的独立同分布的样本时，(P(c)) 可以通过各类样本的频率来进行估计。

概率模型的训练过程就是参数估计的过程。

极大似然估计

来源于频率学派，是根据数据采样估计概率分布参数的方法。

步骤：

写出似然函数
求似然函数对数
求导数
解似然方程

对于离散属性

[hat{oldsymbol{ heta}}_{c}=underset{oldsymbol{ heta}_{c}}{arg max } L Lleft(oldsymbol{ heta}_{c} ight) ]

对于连续属性，假设 (p(oldsymbol{x} | c) sim mathcal{N}left(oldsymbol{mu}_{c}, oldsymbol{sigma}_{c}^{2} ight))，则参数 (mu_c) 和 (sigma_c^2)的估计为

[egin{aligned} hat{oldsymbol{mu}}_{c} &=frac{1}{left|D_{c} ight|} sum_{oldsymbol{x} in D_{c}} oldsymbol{x} \ hat{oldsymbol{sigma}}_{c}^{2} &=frac{1}{left|D_{c} ight|} sum_{oldsymbol{x} in D_{c}}left(oldsymbol{x}-hat{oldsymbol{mu}}_{c} ight)left(oldsymbol{x}-hat{oldsymbol{mu}}_{c} ight)^{mathrm{T}} end{aligned} ]

朴素贝叶斯

后验概率 (P(y|x)) 需要求解类条件概率 (P(x|c))，而这是所有属性上的联合概率，难以求解。添加属性条件独立性假设。

注意：估计概率值要进行平滑操作。

拉普拉斯修正假设实际上假设了属性值与类别均匀分布。

半朴素贝叶斯分类器

对属性条件独立做放缩。

贝叶斯网络

主要需要确定属性之间的依赖关系

补充

大数定律
概率论中讨论随机变量和的平均值的收敛情况, 是数理统
计学中参数估计的理论基础

中心极限定理
是概率论中讨论随机变量和的分布以正态分布为极限的一组定理, 这组定理是数理统计学和误差分析的理论基础, 指出了大量随机变量近似服从正态分布的条件.

大数定律

定理1： 设({X_n}) 是一系列随机同分布的随机变量序列，具有公共的数学期望 (mu) 和方差 (sigma^{2})，则

[overline{X}=frac{1}{n} sum_{k=1}^{n} X_{k} stackrel{p}{ ightarrow} mu ]

即 ({X_n}) 服从弱大数定律。

引理1： (Chebyshev不等式) 设随机变量 (X) 的方差存在，则

[P(|X-E X| geq varepsilon) leq frac{operatorname{Var}(X)}{varepsilon^{2}}, quad forall varepsilon>0 ]

定理1的证明： 利用 Chebyshev 不等式，有 (Eoverline{X}=mu)，(Varoverline{X}=sigma^2/n)，可得：

[P(|overline{X}-mu| geq varepsilon) leq sigma^{2} /left(n varepsilon^{2} ight) ightarrow 0, quad n ightarrow infty quad forall varepsilon>0 ]

中心极限定理

定理： 设 ({X_n}) 满足独立同分布，具有公共期望 (mu) 和方差 (sigma^2)，则 (X_1+cdots +X_n) 的标准形式 (frac{1}{sqrt{n}sigma}(X_1+cdots+X_n-nmu)) 满足中心极限定理，即对任意的 (xinR)，有

[lim _{n ightarrow infty} F_{n}(x)=Phi(x) ]

其中 (F_n(x)) 为 (frac{1}{sqrt{n}sigma}(X_1+cdots+X_n-nmu)) 的分布函数，记为

[frac{1}{sqrt{n} sigma}left(X_{1}+cdots+X_{n}-n mu ight) stackrel{d}{ ightarrow} N(0,1) ]