斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)

 python信用评分卡建模(附代码,博主录制)

pearsonr皮尔森共线系数要求:

1.每个变量数据集符合正态分布

2. p值代表极端值出现概率,样本量小时p值不可靠,但样本量大于500时,p值具有很大参考价值。

https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html

https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html

http://www.360doc.com/content/08/1228/23/50235_2219531.shtml

http://blog.csdn.net/lhkaikai/article/details/37352587

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。

公式:

其中:di=xi-yi表示两个排序之间的差值;

            n:表示样本的大小,即机器学习算法的数量;

               
解:此题被试5人,不知是否为正态分布,所以用斯皮尔曼等级相关解题。其中,x为听觉反应时间按大小排序,y为视觉反应时间按大小排序。d=x-y。
将n=5,∑d^2=6 带入公式 1-[6·∑(di)^2 / (n^3 - n)]
得:ρ=0.7
答:这5人的视听反应时等级相关系数为0.7,属于高度相关。

优点

适用范围广泛,斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

缺点

一组能用积差相关计算的数据,如果改用等级相关,精确度会低于积差相关。凡符合积差相关条件的,最好不要用等级相关计算。


积差相关



积差相关又称积距相关,是当两个变量都是正态连续变量,两者之间呈线性关系时,表示这两个变量之间的相关
使用条件
积差相关的使用条件是:
1、两变量为连续变量,即变量数值取自等距或等比量表。
2、两变量呈线性关系,这可由相关的散布图的形状来描述。
3、两变量为正态分布,或接近正态分布,至少是单峰对称的分布。
4、必须是成对数据,每对数据之间相互独立。
5、要排除共同因素的影响。如果两个变量都随着一个共同因素在变化,即使算出的积差相关系数很高,也难以判断两个变量之间存在高度相关。
6、样本容量大于30,计算出的积差相关系数才有意义。

 

 

python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

 

 

微信扫二维码,免费学习更多python资源

 

 

 

 

原文地址:https://www.cnblogs.com/webRobot/p/7039534.html