统计基础---方差,协方差,协方差矩阵

本章主要是对方差,协方差,协方差矩阵进行一个总结,因为在下总是喜欢把这几者弄混淆。

一. 方差

     方差是用来表征数据,或样本的离散程度的一个指标。当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

      样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:
                                                         
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
     离散型随机变量方差计算公式:D(X)=E{[X-E(X)]^2}=E(X^2) - [ E(X)]^2
     连续型随机变量方差的计算公式: D(X)=
  
(x-μ)^2 f(x) dx

二. 协方差

     协方差是衡量两个变量间的总体误差,当两个两量相同时,即为方差,也就是说方差是协方差的一种特殊情况。

     期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:
 
    如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果XY是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果XY的协方差为0,二者并不一定是统计独立的。协方差为0的两个随机变量称为是不相关的。

三. 协方差矩阵

    分别为mn个标量元素的列向量随机变量XY,这两个变量之间的协方差定义为m×n矩阵.其中X包含变量X1.X2......Xm,Y包含变量Y1.Y2......Yn,假设X1的期望值为μ1,Y2的期望值为v2,那么在协方差矩阵中(1,2)的元素就是X1和Y2的协方差

原文地址:https://www.cnblogs.com/no-tears-girl/p/7609963.html