2014-05-09 相关性检验

今天做空气质量数据分析时候碰到相关性检验的问题。

问题描述：有两种污染物浓度数据，怎么判断这两种污染物浓度之间是否存在相关性？正相关或负相关，即当A浓度上升时，B的浓度同时上升或下降？（这是相关性的定义吗？）

复习相关知识：

相关性检验：Pearson系数，Spearman秩相关系数，kendal秩相关系数

1. Pearson相关系数：

最常用，但是有潜在问题。

检验结果为"不相关"，不代表x和y之间就是相互独立的。“Pearson不相关”和“独立”是两个概念，不要混淆。只有当x和y的分布都是正态分布时，两者才会等同。

举例：

比如对于 $y=x^2$ ，X服从[-1,1]上的均匀分布，此时E(XY)为0，E(X)也为0，所以 $ho_{X,Y}=0$ ，但x和y明显不独立

因此，应用Pearson相关性检验时有两个前提：

使用Pearson线性相关系数有2个局限：

必须假设数据是成对地从正态分布中取得的。（因此，Pearson线性相关系数是衡量线性关系强弱的）
数据至少在逻辑范围内是等距的。

如何直观理解Pearson系数？

详见 http://www.cnblogs.com/zhangchaoyang/articles/2631907.html

皮尔森相关系数（Pearson correlation coefficient）也叫皮尔森积差相关系数（Pearson product-moment correlation coefficient），是用来反应两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度（在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用）。

$ho_{X,Y}=frac{cov(X,Y)}{sigma_xsigma_y}=frac{E((X-mu_x)(Y-mu_y))}{sigma_xsigma_y}$

分子是协方差，分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。

因为 $mu_X=E(X),sigma^2_X=E(X-mu_X)^2=E(X^2)-E^2(X)$ ,所以皮尔森相关系数计算公式还可以写成：

$ho_{X,Y}=frac{E(XY)-E(X)E(Y)}{sqrt{E(X^2)-E^2(X)}sqrt{E(Y^2)-E^2(Y)}}$

当两个变量的线性关系增强时，相关系数趋于1或-1。正相关时趋于1，负相关时趋于-1。当两个变量独立时相关系统为0，但反之不成立。

对于居中的数据来说（何谓居中？也就是每个数据减去样本均值，居中后它们的平均值就为0），E(X)=E(Y)=0，此时有： $ho_{X,Y}=frac{E(XY)}{E(X^2)E(Y^2)}=frac{Xcdot{Y}}{||X||cdot||Y||}$

即相关系数可以看作是两个随机变量中得到的样本集向量之间夹角的cosine函数。

进一步当X和Y向量归一化后，||X||=||Y||=1，相关系数即为两个向量的乘积。

2. Spearman秩相关系数

更一般化。

Spearman秩相关系数是一种无参数（与分布无关）检验方法，用于度量变量之间联系的强弱。

在没有重复数据的情况下，如果一个变量是另外一个变量的严格单调函数，则Spearman秩相关系数就是+1或-1，称变量完全Spearman秩相关。

（注意：Pearson完全相关指的是 “只有当两变量存在线性关系时，Pearson相关系数才为+1或-1”这种情况。所以说，Pearson相关系数是衡量两变量间的关系和线性关系的差距）

对原始数据x_i,y_i按从大到小排序，记x'_i,y'_i为原始x_i,y_i在排序后列表中的位置，x'_i,y'_i称为x_i,y_i的秩次，秩次差d_i=x'_i-y'_i。Spearman秩相关系数为：

$ho_s=1-frac{6sum{d_i^2}}{n(n^2-1)}$

Spearman秩相关系数应该是从秩和检验延伸过来的，因为它们很像。

秩和检验是干什么用的？

检验两组样本A和B是否来自同一个总体。

待弄清的问题：

1.相关性检验 VS 独立性检验，区别？

独立性检验是指两个事件是否独立？即，同时发生的概率=A发生概率*B发生概率

所以独立性检验的对象是一种离散事件？

2.假设检验的东西再好好归纳一下。

基本的解决方法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t—检验法、χ²检验法、F—检验法，秩和检验等。

R中的函数：cor() （待补充）