相似度的算法(欧几里德距离和皮尔逊算法)

https://blog.csdn.net/u010095372/article/details/53932077

给了我两个东西,每个东西上有不同的特征,那咱们就算算这两个东西的相似的系数吧

先说欧几里德距离,按几何意义来讲就是按n个特征给它建立起来n维坐标系,就先说二维吧,二维上就是两个点咯,xy轴,这两个点相似否,就看他的距离咯,于是

就求一下两个点的距离,三个特征呢?那就是三维坐标系。由此推广,可以推广到n维。

公式:|x| = √( x[1]2 + x[2]2 + … + x[n]2 )  欧式距离百科

有些时候呢,它们就是因为有一个特征特别的不一样,而导致两者距离拉的很大。我们看这个皮尔逊吧

皮尔逊相关系数是比欧几里德距离更加复杂的可以判断人们兴趣的相似度的一种方法。该相关系数是判断两组数据与某一直线拟合程序的一种试题。它在数据不是很规范的时候,会倾向于给出更好的结果。

它得出来的系数就在-1和1之间,也就是不相似和相似的程度

先看公式

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:

公式一:

就理解第一个吧,上面是协方差,下面是两个变量的方差开方。

方差越大就说明这个变量离散的厉害,不集中。

协方差就是描述X和Y相关程度的量(两个变量总体误差的期望)

皮尔逊相关系数计算公式

公式二:

 

皮尔逊相关系数计算公式

公式三:

 

皮尔逊相关系数计算公式

公式四:

 

皮尔逊相关系数计算公式

 

以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数。
里面期望最简单就是求他们的平均值,E(XY),X和Y的值对应乘起来就再求平均值 方法
---------------------  
作者:赫凯  
来源:CSDN  
原文:https://blog.csdn.net/u010095372/article/details/53932077  
版权声明:本文为博主原创文章,转载请附上博文链接!

原文地址:https://www.cnblogs.com/fengff/p/9923686.html