基础公式

均值:

方差:

 

标准偏差(总体标准偏差):

 

 栗子:某班级平均身高 M=170cm,方差为 100cm,标准差为10cm,班级身高范围 170±10 cm。

 样本标准偏差:

 

协方差:衡量两个变量(如 X与Y)的总体误差(方差是协方差的一种特殊情况)

一个变量跟随着另一个变量同时变大或者变小,则两个变量的协方差为正值。

皮尔森(Pearson)相关系数:反映两个变量线性相关程度,结果越大越强

将数值(v)映射到新的范围:

零均值规格化方法:

属性 A 最大 值与最小值未知;或使用最大最小规格化方法时会出现异常数据的情况。

欧式距离 / 欧几里得度量(euclidean metric):(两点间的直线距离 / 实际距离

(1) 二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:

 (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:

 

(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:

 

 (4)向量形式:

 

曼哈顿距离:

信息熵,基尼系数(决策树相关):

 

支持度,置信度,提升度(关联规则相关):

回归模型评估指标:R2可决系数/确定系数,平均平方差 MSE,平均平方根误差 RMSE,平均绝对离差 MAD

  

原文地址:https://www.cnblogs.com/hzc2012/p/8280323.html