高斯（正态）分布、GDA、Mixtures of Gaussian

(原创文章，转载请注明出处！)

高斯分布的密度函数

一元高斯分布：

p(x;μ,σ²)=(1/{sqrt(2π)*σ}) * exp{-(x-μ)²/(2σ²)}

期望：E(X) = μ；方差：D(X) = σ²

二元高斯分布：

p(x₁,x₂;μ₁,μ₂,σ₁²,σ₂²)={ 1 / [2π*σ₁σ₂*sqrt(1-ρ²)] } * exp{ [(-1)/(2*(1-ρ²))] * [ (x-μ₁)²/σ₁² - 2ρ(x-μ₁)(x-μ₂)/(σ₁σ₂) + (x-μ₂)²/σ₂²] }

ρ为x₁,x₂的相关系数： ρ = E[X₁-E(X₁)] * E[X₂-E(X₂)] / (σ₁σ₂)

x₁,x₂的协方差：Cov(X₁,X₂) = ρσ₁σ₂

对二元高斯分布来说，两个维度的随机变量不相关与独立等价。

多元高斯分布：（n维正态随机分布分每一个分量都是正态随机变量）

f(x₁,x₂,...,x_n) = 1 / ( (2π)^n/2|C|^1/2 ) * exp{ (-1/2) * (X-μ)^TC^-1(X-μ)}

X = (x₁ x₂ ... x_n)^T, μ = (μ₁ μ₂ ... μ_n )^T

C是协方差矩阵，C^-1是C的逆矩阵

GDA (Gaussian Discriminant analysis)，高斯判别分析

GDA模型的基本思想是分别用两个多元高斯分布（对二分类问题）来描述两个不同的类别的概率分布，即：在已知类别的情况下，来寻找样本的多元高斯分布。（GDA模型假设两个类别的样本服从多元高斯分布, 如果样本数据确实服从高斯分布，则能取得较好的分类效果。）

得到两个类别的概率分布后，对新的样本，分别计算在两个概率分布下的概率，概率大的分布所对应的类别即为新样本的类别。

类别y的概率用0-1分布描述：p(y) = p^y(1-p)^1-y

类别0的概率分布，p(x|y=0) = 1 / ( (2π)^n/2|C|^1/2 ) * exp{ (-1/2) * (X-μ₀)^TC^-1(X-μ₀)}, n为样本特征的个数

类别1的概率分布，p(x|y=1) = 1 / ( (2π)^n/2|C|^1/2 ) * exp{ (-1/2) * (X-μ₁)^TC^-1(X-μ₁)}

对一个新样本x’，分别计算：p(y=0|x') = p(x'|y=0) * (1-p(y=1))

p(y=1|x') = p(x'|y=1) * p(y=1)

然后比较这两个概率值大小，来判别新样本x’所属类别。

注：在模型中，两类不同样本的期望不同，但协方差矩阵一样，即：两类的中心点不一样，但围绕中心点，样本的分散度一样；输入X的值是连续型。

通过极大似然估计，求得模型中的参数：

p = (1/m) * num_of_sample(y=1)

μ₀= sum(x_of_sample(y=0)) / num_of_sample(y=0)

μ₁= sum(x_of_sample(y=1)) / num_of_sample(y=1)

C = (1/m) * ∑_i=1^m(xⁱ-μ_y⁽ⁱ⁾)(xⁱ-μ_y⁽ⁱ⁾)^T

（算法的实现与应用高斯分布来解决异常检测问题（二）多元高斯分布模型的实现基本一样，只是对两个不同类别的均值要分别计算。）

Mixtures of Gaussian，混合高斯模型

对无label的样本数据，有p(xⁱ, zⁱ) = p(xⁱ|zⁱ)p(zⁱ), xⁱ与zⁱ的联合分布，xⁱ是样本集中的第i个样本，zⁱ观测不到，

但混合高斯模型认为xⁱ的值与某个观测不到的东西，zⁱ，有关。

假设p(zⁱ)服从多项分布, p(xⁱ|zⁱ)服从多元高斯分布。zⁱ的取值有k个{1,2,...,k}, p(zⁱ=j) = Φ_j, ∑_j=1^kΦ_j = 1。

（即：认为样本中有k类数据，目的就是通过训练找出描述这k类数据的k个高斯分布函数，由于数据没有label，所以每个样本可能由k个高斯分布函数任一个生成。

相当于把样本聚成k个类，每个类不是由聚类中心确定，而是由一个高斯分布描述。）

zⁱ的每一个取值代表了一个不同的多元高斯分布，所以在高斯混合模型中有k个不同的多元高斯分布，p(xⁱ|zⁱ=j)表示样本xⁱ来自第j个多元高斯分布。

由于zⁱ观测不到，所以p(zⁱ=j) = Φ_j是未知的。在这种情况下，使用极大似然估计就无法计算出模型中的参数。可以使用EM算法进行训练，计算出参数。

EM算法， Expectation Maximization :

EM算法的基本思路与k-均值算法类似，

(1)首先对未知的p(zⁱ=j) = Φ_j进行初始化

(2)用其计算出模型中的参数；

(3)用计算得到的参数再调整p(zⁱ=j) = Φ_j

(4)重复(2)、(3)直到收敛。

（使用EM算法来训练含有隐含变量的模型p(x,z)时保证是收敛的，但与k-means类似，可能收敛到局部最优解，所以需要多尝试不同的初始化值来训练）

模型中的参数：模型训练的目的是要得到k个多元高斯分布，用这k个多元高斯分布来描述样本数据，所以模型的参数就是这个k个多元高斯分布的μ和C，即：(μ₁,C₁), (μ₂,C₂),...,(μ_j,C_j),...,(μ_k,C_k)

k个多元高斯分布是p(xⁱ|zⁱ)，是条件分布，混合高斯模型需要(xⁱ, zⁱ)，即xⁱ, z的联合分布，所以模型的参数还包括k个Φ，p(zⁱ=j) = Φ_j，即：Φ₁,Φ₂,...,Φ_j,...,Φ_k

计算过程如下：

----初始化: 对每个样本初始化其p(zⁱ|xⁱ)，由于不确定xⁱ是由哪一个高斯分布生成的，所以，zⁱ可能取k个值,记：w_jⁱ = p(zⁱ=j|xⁱ;Φ,μ,C)

		x¹	x²	...	xⁱ	...	x^m
z=1	Φ₁	w₁¹	w₁²	...	w₁ⁱ	...	w₁^m
z=2	Φ₂	w₂¹	w₂²	...	w₂ⁱ	...	w₂^m
...	...	...	...	...	...	...	...
z=j	Φ_j	w_j¹	w_j²	...	w_jⁱ	...	w_j^m
...	...	...	...	...	...	...	...
z=k	Φ_k	w_k¹	w_k²	...	w_kⁱ	...	w_k^m

需要随机的初始化 m*k 个 w_jⁱ ，保证∑_j=1^k(w_jⁱ)=1 。

----do

--------对每一个j，通过如下公式计算参数，以下公式是在假设w_jⁱ已知的情况下，由极大似然法计算出来：

Φ_j= (1/m)∑_i=1^m(w_jⁱ) //上面表格中的一行求平均，即每个样本由第j个多元高斯分布生成的概率求平均，来作为p(zⁱ=j)的估计

μ_j = ∑_i=1^m(w_jⁱxⁱ) / ∑_i=1^m(w_jⁱ) //w_jⁱ为第i个样本由第j个多元高斯分布生成的概率

//公式在形式可理解为样本均值作为期望的估计

//对第j个分布，每个样本xⁱ由其生成的概率是w_jⁱ，∑_i=1^m(w_jⁱxⁱ)就可以看做第j个分布的样本值之和

//然后除以总份数 ∑_i=1^m(w_jⁱ)，即为第j个分布的样本平均值

C_j = ∑_i=1^m[w_jⁱ(xⁱ-μ_j)(xⁱ-μ_j)^T] / ∑_i=1^m(w_jⁱ) //对此公式的理解与计算μ_j的公式类似

//分子可以看做第j个高斯分布的样本的协方差矩阵之和，

//然后除以份数后，以作为第j个高斯分布的协方差矩阵的估计

--------对j的循环结束

--------判断是否收敛，如果收敛，就跳出循环，结束训练

--------使用如下公式，更新每个w_jⁱ, 共有m*k个：

w_jⁱ = p(zⁱ=j | xⁱ;Φ,μ,C) = p(xⁱ|zⁱ=j;μ,C)p(zⁱ=j;Φ) / ∑_l=1^k[p(xⁱ|zⁱ=l;μ,C)p(zⁱ=l;Φ)]

//Bayes公式，计算后验概率

//p(xⁱ|zⁱ=j;μ,C)是一个高斯多元分布，期望μ与协方差矩阵C已经由上面公式计算得到

//p(zⁱ=j;Φ) = Φ_j, 已经由上面的公式计算得到

----while(true)

对是否已经收敛的判断：检查当前训练得到的k个高斯分布的参数(μ,C)与前一次训练的是否一样，如果一样表示已经收敛（类似于聚类中心不再移动）。

本文章更关注算法的实现，关于混合高斯模型和EM算法更详细的描述，可以参考如下链接：

http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html

http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

关于GDA算法的描述，可以参考如下链接：

http://www.cnblogs.com/dyllove98/archive/2013/07/10/3181896.html