高斯分布

什么是高斯分布与高斯分布的广泛性

高斯分布, Gaussian Distribution，也叫自然分布或正态分布，Natural Distribution。
从它的名字--natural distribution中也可以看出它的广泛性：正常情况下，你就应该是这个分布。
那么为什么到处都有它呢？概率论中的中心极限定理可以说明为什么：在客观实际中有许多随机变量，它们是由大量的相互独立的随机因素的综合影响所形成的。而每个随机因素在总的影响中都是微小的。这些变量的分布往往可以用正态分布来逼近。考虑到现实世界的复杂情况也就能理解自然分布的广泛性了。它最先由高斯发现在1809年发现。

单元高斯分布

这里的单元不是指一个单元，两个单元，而是单变量的意思，single variet. 单变量正态分布的概率密度函数：(phi (x) = frac {1}{sqrt {2pi}sigma}e^{-frac {(x-mu)^2}{2sigma^2}})

其中(mu, sigma^2)分别为(x)的期望与方差。知道这两个参数后，这个正态分布可以表示为$ N(mu, sigma^2)$.

由一个特殊的积分:

[ int_{-infty}^{+infty} e^{-t^2}dt = sqrt pi$$. 令$t=frac {x-mu}{sqrt 2 sigma}$，$dt = frac {1}{sqrt 2 sigma}dx$, 可以得到$$int^{infty}_{-infty}phi(x)dx = 1$$. 关于单元正态分布，有两个常用的性质： * $mu$ 决定密度函数图象的位置， $sigma$ 决定它的形状：$sigma$ 越大，图象越胖。 * $3sigma$ 规律：正态分布中，只有不到千分之二的元素分布在$[mu-3sigma,mu+3sigma]$之外，为小概率事件，基本不会发生。 # 多元高斯分布多元高斯分布，即多变量高斯分布， Multivariet Gaussian Distribution. 样本值是一个多维列向量$X=(x_1, x_2, dots, x_d)^T$，每一个单独的元素都服从各自的正态分布。它的概率密度函数为: $$P(X) = frac {1} {(2pi)^{frac 1d} |Sigma|^frac 12} e ^ {-frac{(x-mu)^T Sigma^{-1}(x-mu)}{2}}]

(mu) 在这里就不再是一个标量了，而是一个(d)维列向量；(Sigma)是样本的协方差矩阵, (d imes d). (|Sigma|)与(Sigma^{-1})分别是它的行列式值与逆矩阵。一个多元高斯分布可以看作一个标准向量(mu)受到自然污染后的取值的分布。

(Sigma)的计算方式为：

均值化处理：从所有样本向量中分别减去(mu)，即 (z = x - mu)
(Z) 为所有 (z) 组成的(m imes d)矩阵
(Sigma = Z^TZ).

高斯分布的线性变换与投影

多个正态分布的线性组合可以形成新的线性分布。(A)为(d imes k)矩阵，(Y = A^TX)通过对多元正态分的随机变量(X)进行线性变换得到一个新的正态分布随机变量(Y = N (Amu, A^TSigma A)). 若$k =1 $，即 (p = A) 为一个(d) 维列向量， (Y = p^TX)代表将(X)往(p)所在的直线方向上进行投影。(p^TSigma p) 代表(X)在这个投影方向上的方差，这个值越大，代表原样本集在这个方向上分散的越开。这一点在PCA算法中会使用到。

(END)

Daniel的学习笔记
浙江大学计算机专业15级硕士在读, 方向: Machine Learning, Deep Learning, Computer Vision.
blog内容是我个人的学习笔记, 由于个人水平限制, 肯定有不少错误或遗漏. 若发现, 欢迎留言告知, Thanks!