高斯分布

什么是高斯分布与高斯分布的广泛性

高斯分布, Gaussian Distribution, 也叫自然分布或正态分布,Natural Distribution。
从它的名字--natural distribution中也可以看出它的广泛性:正常情况下, 你就应该是这个分布。
那么为什么到处都有它呢?概率论中的中心极限定理可以说明为什么:在客观实际中有许多随机变量, 它们是由大量的相互独立的随机因素的综合影响所形成的。而每个随机因素在总的影响中都是微小的。这些变量的分布往往可以用正态分布来逼近。 考虑到现实世界的复杂情况也就能理解自然分布的广泛性了。它最先由高斯发现在1809年发现。

单元高斯分布

这里的单元不是指一个单元,两个单元, 而是单变量的意思,single variet. 单变量正态分布的概率密度函数:(phi (x) = frac {1}{sqrt {2pi}sigma}e^{-frac {(x-mu)^2}{2sigma^2}})

其中(mu, sigma^2)分别为(x)的期望与方差。知道这两个参数后, 这个正态分布可以表示为$ N(mu, sigma^2)$.

由一个特殊的积分:

[ int_{-infty}^{+infty} e^{-t^2}dt = sqrt pi$$. 令$t=frac {x-mu}{sqrt 2 sigma}$,$dt = frac {1}{sqrt 2 sigma}dx$, 可以得到$$int^{infty}_{-infty}phi(x)dx = 1$$. 关于单元正态分布, 有两个常用的性质: * $mu$ 决定密度函数图象的位置, $sigma$ 决定它的形状:$sigma$ 越大, 图象越胖。 * $3sigma$ 规律: 正态分布中, 只有不到千分之二的元素分布在$[mu-3sigma,mu+3sigma]$之外, 为小概率事件, 基本不会发生。 # 多元高斯分布 多元高斯分布,即多变量高斯分布, Multivariet Gaussian Distribution. 样本值是一个多维列向量$X=(x_1, x_2, dots, x_d)^T$, 每一个单独的元素都服从各自的正态分布。它的概率密度函数为: $$P(X) = frac {1} {(2pi)^{frac 1d} |Sigma|^frac 12} e ^ {-frac{(x-mu)^T Sigma^{-1}(x-mu)}{2}}]

(mu) 在这里就不再是一个标量了, 而是一个(d)维列向量;(Sigma)是样本的协方差矩阵, (d imes d). (|Sigma|)(Sigma^{-1})分别是它的行列式值与逆矩阵。一个多元高斯分布可以看作一个标准向量(mu)受到自然污染后的取值的分布

(Sigma)的计算方式为:

  • 均值化处理:从所有样本向量中分别减去(mu), 即 (z = x - mu)
  • (Z) 为所有 (z) 组成的(m imes d)矩阵
  • (Sigma = Z^TZ).

高斯分布的线性变换与投影

多个正态分布的线性组合可以形成新的线性分布。(A)(d imes k)矩阵,(Y = A^TX)通过对多元正态分的随机变量(X)进行线性变换得到一个新的正态分布随机变量(Y = N (Amu, A^TSigma A)). 若$k =1 $, 即 (p = A) 为一个(d) 维列向量, (Y = p^TX)代表将(X)(p)所在的直线方向上进行投影。(p^TSigma p) 代表(X)在这个投影方向上的方差, 这个值越大, 代表原样本集在这个方向上分散的越开。这一点在PCA算法中会使用到。

(END)

Daniel的学习笔记
浙江大学计算机专业15级硕士在读, 方向: Machine Learning, Deep Learning, Computer Vision.
blog内容是我个人的学习笔记, 由于个人水平限制, 肯定有不少错误或遗漏. 若发现, 欢迎留言告知, Thanks!
原文地址:https://www.cnblogs.com/dengdan890730/p/5470656.html