皮尔逊相关系数

想要了解皮尔逊相关系数，首先需要学习概率中的协方差概念。

协方差

协方差在概率中用于衡量两个变量的总体误差。当两个变量的变化趋势相同时，也就是一个变量大于它的期望，另一个变量也大于它的期望时，他们的协方差值为正；如果变化趋势相反时，他们的协方差值为负。

如果两个变量分别为X、Y，他们的期望分别是E(X)、E(Y)，则他们的协方差是

Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E[XY]-2E[Y]E[X]+E[X]E[Y]=E[XY]-E[X]E[Y]

当X、Y为两个独立变量时，则E[XY]=E[X]E[Y]，因此Cov(X,Y)=0。

Pearson系数

由上图Pearson系数的公式可以看出，Pearson相关系数是用协方差除以两个变量的标准差得到的。

之所以需要除以两个变量的标准差，是因为协方差虽然可以表示两个变量的相关程度（协方差大于0，表示正相关；协方差小于0，表示负相关），但是协方差值的大小并不能直接反应两个变量的相关程度。

因此在协方差的基础上再除以两个变量的b标准差，pearson是一个介于-1和1之间的值，当两个变量的线性关系增强时，相关系数趋于1或-1；当一个变量增大，另一个变量也增大时，表明它们之间是正相关的，相关系数大于0；如果一个变量增大，另一个变量却减小，表明它们之间是负相关的，相关系数小于0；如果相关系数等于0，表明它们之间不存在线性相关关系。