机器学习第二次作业

模式识别课分为“分类”和“回归”
分类：输出量是离散的类别表达
回归：输出量是连续的信号表达（回归值）
回归是分类的基础：离散的类别值是由回归值做判断决策的得到的
模式识别：根据已有得知识表达，针对待识别模式，决策其所属的类别或预测其对应的回归值
数学解释：模式识别可以看做一种函数映射，将待识别模式从输入空间映射到输出空间，函数是关于已有知识的表达。
特征提取，从原始输入数据提取更有效的信息。
回归器：将特征映射到回归值。
模型（广义）：特征提取+回归器+判别函数
模型（狭义）：特征提取+回归器
分类器：回归器+判别函数
鲁棒性：针对不同的观测条件，仍能够有效的表达类别之间的差异。
特征向量：多个特征构成的（列）向量
特征向量的欧式距离：表征两个向量之间的相似程度

线性模型：

Over-determined：训练样本个数>>模型参数个数，额外添加一个标准，通过优化该标准俩确定一个近似解，该标准称作目标还是或者代价函数又或者损失函数。
目标函数以待学习的模型参数作为自变量，以训练样本作为给定量
监督式学习：训练样本及输出真值都给定情况下的机器学习算法
通常用最小化训练误差作为目标函数进行优化

无监督式学习：只给定训练样本，没有给定输出真值情况下的机器学习算法。
根据样本间的相似程度来进行决策
典型应用：聚类，图像分割
半监督式学习：既有标注的样本，也有未标注的样本
典型应用：网络流数据
强化学习：机器自行探索决策、真值滞后反馈的过程
定义从输入状态到动作决策为一个策略
使用该策略进行决策时，给予每次决策一个奖励
累积多次奖励获得回报值
回报的期望值作为该策略的价值函数
通过最大值回报的期望值，解出该策略的参数
测试集和训练集是互斥的，但假设同分布
测试误差，模型在测试集上的误差，反映了模型的泛化能力，，也称泛化误差
泛化能力：训练得到得模型不仅要对训练样本具有决策能力，也要对新的模式具有决策能力
过拟合：模型过于拟合训练数据
提高泛化能力：选择复杂度适合的模型；正则化，在目标函数中加入正则项
多项式拟合：

超参数M多项式的阶数，决定了模型的复杂度
超参数N训练样本的个数
超参数调节：从训练集中划分出一个验证集，基于验证集调节超参数
留出法：
1、随机划分：将数据集分为两组：训练集和测试集。利用训练集训练模型，然后利用测试集评估模型的量化指标。
2、取统计值：为了可分单次随机划分代理的偏差，将上述随机划分进行若干次，取量化指标的平均值（以及方差、最大值等）最为最终的性能量化评估结果。
K折交叉验证：
将数据集分割成k个子集，从中选取当个子集作为测试集，其余的作为训练集。
交叉验证重复k次，使得每个子集都被测试一次，将k次的评估值取平均，作为最终的量化评估结果。
留一验证：
每次只取一个样本作为测试集，其余作为训练集。
等同于k为样本个数的k折交叉验证
真阳性TP：真值为正，预测为正
假阳性FP：真值为负，预测为正
真阴性TN：真值为负，预测为负
假阴性FN：真值为正，预测为负
准确度：(TP+TN)/(TP+FP+TN+FN) 阳性和阴性样本比例失衡难度量性能
精度precision：TP/(TP+FP)
召回率recall：TP/(TP+FN)
F-Score: F=[(a^2+1)pr]/(a^2pr)
混淆矩阵：列代表预测值，行代表真值。对角线元素值越大代表模型性能越好。
PR曲线：横轴：召回率；纵轴：精度曲线越右上凸，性能越好
ROC曲线：横轴FPR=FP/(FP+TN)；纵轴召回率
曲线下方面积AUC,AUC=1完美分类器，AUC=0.5随机猜测

MED分类器：
最近邻：取与测试样本最近的一个训练样本作为测试的原型。
缺点：对类的表达误差较大，对噪声和异常样本比较敏感
距离度量的标准：同一性，非负性，对称性，三角不等式

常用的几种距离度量

MED分类器：最小欧式距离分类器，距离度量：欧式距离，类原型：均值
没有考虑特征变化的不同及特征之间的相关性
协方差矩阵：对角元素不相等：每维特征的变化不同；非对角元素不为0：特征之间存在相关性
特征白化：将原始特征映射到一个新的特征空间，使得在新空间中特征的协方差矩阵为单位矩阵，从而去除特征变化的不同及特征之间的相关性