机器学习常见数据概念

1、协方差:

计算两个变量在变化过程中的相似度,同向运动程度越高,值越大。

2、相关系数:

标准差:反映数据的离散程度,数据离散度越大,标准差越大。

通过标准差,将协方差的值约束到一定范围内,去除协方差运动幅度的影响,只保留运动的相似度(相关度),这就是相关系数。

>0 and <=1 正相关; =0 不想关 ;>-1 and <0 负相关 。

3、方差

描述样本与均值的偏离程度

4、标准差

代表了样本的散度,值越小,散度越低。

 5、均方差

评价观测值和真实值之间误差,常用做线性模型的损失函数。

6、熵、kl散度(Kullback-Leibler (KL) divergence)、交叉熵

熵:

p(x)每一种可能的概率

kl散度:

p(x)、q(x) 两种分布下的,同一个变量的概率(训练样本/测试样本?)

H(p(x))为熵,做为训练样本时,是常数,因此剩余部分可以代表散度,即交叉熵。 

交叉熵:

常用做损失函数,用来评价样本差异度。

参考:https://blog.csdn.net/tsyccnh/article/details/79163834

---待不断完善

原文地址:https://www.cnblogs.com/evening/p/9633270.html