样本间相似度/距离的计算方法总结

样本间相似度/距离计算方法总结

标签(空格分隔): 机器学习


闵可夫斯基距离

Minkowski距离,也成欧式距离,计算方法为:

(egin{equation} dist(X, Y) = (sum_{i=1}^{n}|x_{i}-y_{i}|^{p})^{frac{1}{p}} end{equation})

Jaccard相似系数

(egin{equation} J(A, B) = frac{|A cap B|}{|A cup B|} end{equation})

余弦相似度(consine similarity)

(egin{equation} cos( heta) = frac{X^{T}Y}{|X|·|Y|} = frac{sum_{i=1}^{n}X_{i}Y_{i}}{sqrt{sum_{i=1}^{n}X_{i}^{2}}sqrt{sum_{i=1}^{n}Y_{i}^{2}}} end{equation})

Pearson相似系数

(egin{equation} ho_{XY} = frac{cov(X, Y)}{sigma_{X}sigma_{Y}} = frac{E[(X-mu_{X})(Y-mu_{Y})]}{sigma_{X}sigma_{Y}} = frac{sum_{i=1}^{n}(X_{i}-mu_{X})(Y_{i}-mu_{Y})}{sqrt{sum_{i=1}^{n}(X_{i} - mu_{X})^{2}}sqrt{sum_{i=1}^{n}(Y_{i} - mu_{Y})^{2}}} end{equation})

相对熵(K-L散度)

(egin{equation} D(p||q) = sum_{i=1}^{n}p(x)logfrac{p(x)}{q(x)} end{equation})

Hellinger距离

(egin{equation} D_{alpha}(p||q) = frac{2}{1 - alpha^{2}}(1-int p(x)^{frac{1+alpha}{2}}q(x)^{frac{1-alpha}{2}}dx) end{equation})

余弦相似度 VS Pearson相关系数

可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。

在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。

原文地址:https://www.cnblogs.com/little-YTMM/p/5628365.html