机器学习常见数据概念

1、协方差：

计算两个变量在变化过程中的相似度，同向运动程度越高，值越大。

2、相关系数：

标准差：反映数据的离散程度，数据离散度越大，标准差越大。

通过标准差，将协方差的值约束到一定范围内，去除协方差运动幅度的影响，只保留运动的相似度（相关度），这就是相关系数。

>0 and <=1 正相关; =0 不想关 ;>-1 and <0 负相关。

3、方差

描述样本与均值的偏离程度

4、标准差

代表了样本的散度，值越小，散度越低。

5、均方差

评价观测值和真实值之间误差，常用做线性模型的损失函数。

6、熵、kl散度（Kullback-Leibler (KL) divergence）、交叉熵

熵：

p(x)每一种可能的概率

kl散度：

p(x)、q(x) 两种分布下的，同一个变量的概率（训练样本/测试样本？）

H(p(x))为熵，做为训练样本时，是常数，因此剩余部分可以代表散度，即交叉熵。

交叉熵：

常用做损失函数，用来评价样本差异度。

参考：https://blog.csdn.net/tsyccnh/article/details/79163834

---待不断完善