度量线性相关性之协方差与相关系数

一、协方差

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?(你变大,同时我也变大,说明两个变量是同向变化的)

协方差定义:Cov(X,Y)=E[(X-E(X))(Y-E(Y))]

公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(这里求“期望”简单认为就是求均值了)。

如果X、Y变化方向相同,即当X大于其均值时,Y也大于其均值,当X小于其均值时,Y也小于其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,X变大的时候,Y也变大,X变小的时候,Y也变小,则协方差为正;

如果X、Y变化方向一直相反,则协方差为负;

如果X、Y变化方向之间相互无规律,则可能某一时刻(X-E(X))(Y-E(Y))为正,而另一时刻的(X-E(X))(Y-E(Y))为负,累计以后正负项抵消,最后求出的平均值就是协方差,通过协方差的大小,就可以判断两个变量变化同向或者反向的程度了。

总结一下,如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高。

二、相关系数

公式翻译一下:相关系数就是用X、Y的协方差除以X的标准差和Y的标准差。(标准差是方差的算术平方根)

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它:

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度。

总结一下,对于两个变量X、Y,当他们的相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。

 
相关系数只能用来衡量线性相关程度

参考链接:http://www.mathsisfun.com/data/correlation.html

一般我们讲的相关系数,其实叫皮尔逊相关系数(Pearson correlation coefficient),wiki关于这个系数的解释是:

The correlation coefficient ranges from −1 to 1. A value of 1 implies that a linear equation describes the relationship between X and Y perfectly, with all data points lying on a line for which Y increases as X increases. A value of −1 implies that all data points lie on a line for which Y decreases as X increases. A value of 0 implies that there is no linear correlation between the variables.

case 1:
 
Four sets of data with the same correlation of 0.816


如图(右上)所示,非线性相关也会导致线性相关系数很大;
好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下)所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释)

 
case 2:
 
 

上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗?
所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)

总结:如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;
但在你不知道这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,你一定要画出图来看才行,这就是为什么我们说眼见为实和数据可视化的重要性。

参考链接:

http://blog.csdn.net/witforeveryang/article/details/42585791

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

理解:在不存在离群点的情况下,相关系数反应的是两个变量之间的线性相关程度,线性相关程度高低与变量之间有没有其他非线性相关性无关。

原文地址:https://www.cnblogs.com/guo-xiang/p/7295301.html