《机器学习》第一次作业——第一至三章学习记录和心得

一、模式识别的基本概念

1.1模式识别

1.定义：模式识别是根据已有的知识表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值。
2.本质：模式识别本质上是一种推理过程

3.应用实例：计算机视觉（字符识别，交通标志识别，动作识别等），人机交互（语音识别等）、医学领域（模式识别）、网络领域（应用程序识别）、金融领域（模式识别、股票价格预测）、机器人领域（目标抓取）、无人车领域（无人驾驶）。
4.数学表达：可以看成一做函数映射f(x),将待识别模式x从输入空间映射到输出空间，f(x)是关于已有知识的表达。

1.2模型的概念

1.模型：关于已有知识的一种表达方式，即函数f(x)。
2.模型的组成
从广义上看：特征提取+回归器+判别函数
从狭义上看：特征提取+回归器+判别函数

3 特征&特征空间
（1）特征：可以用于区分不同类别模式的、可测量的量。
（2）特征向量（feature vector）：多个特征构成的（列）向量。

1.3 特征向量的相关性

1.点积的代数定义

2.残差向量：向量x分解到向量y方向上得到的投影向量与原向量x的误差。

3.欧式距离

1.4机器学习基本概念

1.线性模型：模型结构是线性的（直线、面。超平面）

适用场景：数据是线性可分或线性表达的

2.非线性模型：模型结构是非线性的（曲线。曲面、超曲面）：y=g(x)
适用场景：数据是线性不可分或者线性不可表达
eg：多项式、神经网络、决策树等

3.样本量（N）与模型参数量（M）的联系
（1）如果N==M：参数唯一解
（2）如果N>>M（over-determined）：没有准确的解
（3）如果N<<M（under-determined）：无数解或无解

4.目标函数
（1）对于over -determined的情况，需要额外添加一个标准,通过优化该标准来确定一个近似解。该标准就叫目标函数(Objective function)，也称作代价函数或损失函数
（2）对于under-determined的情况，还需要在目标函数中加入能够体现对于参数解的约束条件，据此从无数个解中选出最优的一个解。

5.优化算法：最小化或最大化目标函数的技术

1.5机器学习的方式

1.监督室学习：训练样本及输出真值都给定情况下的机器学习算法。通常使用最小化训练误差作为目标函数进行优化。
2.无监督式学习：之给定训练样本、没有给输出真值情况下的机器学习算法。难度远高于监督式算法。
应用：聚类（Clustering）、图像分割（Image Segmentation）。
3.半监督式学习：既有标注的训练样本，又有未标注的训练样本情况下的学习算法。可以看做有约束条件的无监督式学习。
应用：网络流数据。
4.强化学习：机器自行探索决策、真值滞后反馈的过程。
应用：Alpha Go等

1.6评估方法与性能指标

1.评估方法：
（1）留出法：
随机划分:将数据集随机分为两组:训练集和测试集。利用训练集训练模型，然后利用测试集评估模型的量化指标。
取统计值:为了克服单次随机划分带来的偏差,将上述随机划分进行若干次，取量化指标的平均值(以及方差、最大值等)作为最终的性能量化评估结果。
（2）K折交叉验证
将数据集分割成K个子集，从其中选取单个子集作为测试集，其他K - 1个子集作为训练集。交叉验证重复K次，使得每个子集都被测试-次;将K次的评估值取平均，作为最终的量化评估结果。
（3）留一验证
每次只取数据集中的一个样本做测试集，剩余的做训练集。每个样本测试一次，取所有评估值的平均值作为最终评估结果。等同于K折交叉验证，K为数据集样本总数。

1.7性能指标度量

二类分类:真阳性（TP)，假阳性(FP)，真阴性(TN)，假阴性(FN)

1.准确度：(TP+TN)/(TP+TN+FP+FN)
2.精度&召回率：
精度：TP/(TP+FP)
召回率：TP/(TP+FN)
精度高、召回率高，则模型性能越好。
3.F-Score

如果a=1，则

4.PR、ROC、AUC

二、基于距离的分类器

2.1 基于距离的分类器的基本概念：

把测试样本到每个类之间的距离作为决策模型，将测试样本判定为与其距离最近的类。
1.MED分类器
（1）概念：最小欧式距离分类器(Minimum Euclidean Distance Classifier)
（2）距离度量：马氏距离
（3）类的原型：均值

（4）缺陷：会选择方差较大的类

1.决策边界：
（1）对于2个类而言，MED分类器的决策边界方程为：

关于x的一次函数
（2）在高维空间中，决策边界为超平面

2.2.特征白化（去除特征相关性）

1.目的：将原始特征映射到一个新的特征空间，使得在新空间中特征的协方差矩阵为单位矩阵，从而去除特征变化的不同及特征之间的相关性
2.步骤：分为两步，先去除特征之间的相关性（解耦, Decoupling) ,然后再对特征进行尺度变换(白化, Whitening)，使每维特征的方差相等。
3.转换矩阵W1的特性：转换前后欧氏距离保持不变，说明W1只是起到了旋转的作用。

三、贝叶斯决策和学习

3.1贝叶斯决策与MAP分类器

1.引言：

MICD分类器的问题：当两个类均值一样时，MICD偏向于方差大的类。
在此种情况，决策真值应该是倾向于方差小(分布紧致)的类。

2.后验概率：用于分类决策（找后验概率大的那个类）
3.贝叶斯规则

4.MAP分类器：将测试样本决策分类给后验概率最大的那个类。

（1）决策误差：概率误差等于未选择的类所对应的后验概率。
平均误差为样本概率误差的均值。
（2）目标：最小化概率误差，即分类误差最小化。

3.2MAP分类器：高斯观测概率

1.观测似然概率为一维高斯分布的分布函数：

3.决策边界
方程表达为

方便与MED分类器进行比较，也可以写为

在方差相同的情况下，MAP决策边界偏向先验可能性较小的类，即分类器决策偏向先验概率高的类
MAP分类器可以解决MICD分类器存在的问题。
当方差不同时，MAP分类器倾向选择方差较小的类。

3.3决策风险与贝叶斯分类器

1.决策风险的概念：贝叶斯决策不能排除出现错误判断的情况，由此会带来决策风险。

2.贝叶斯分类器
在MAP分类器的基础上，加入决策风险因素，得到贝叶斯分类器。贝叶斯分类器选择决策风险最小的类。

贝叶斯决策的期望损失

3.4最大似然估计

1.最大似然估计
定义

2.高斯分布参数估计
对于参数偏导置零

4.均值估计
关于u的最大似然估计

高斯分布均值的最大似然估计等于样本的均值
5.协方差估计

高斯分布协方差的最大似然估计等于所有训练模式的协方差。

3.5最大似然的估计偏差

1.无偏估计：
定义：如果一个参数的估计量的数学期望是该参数的真值，则估计量称作无偏估计。
2.高斯均值

均值的最大似然估计是无偏估计。
3.高斯协方差

协方差的最大似然估计是有偏估计
5.高斯协方差估计偏差

一个较小的数。

3.6贝叶斯估计

1.定义

2.参数的后验概率

3.高斯观测似然

5.贝叶斯估计：不断学习能力
它允许最初的、基于少量训练样本的、不太准的估计。
随着训练样本的不断增加，可以串行的不断修正参数的估计值，从而达到该参数的期望真值。
6.观测似然概率的估计

观测似然概率可以看做是关于x的高斯分布

3.8 KNN估计

1.KNN估计：给定x，找到其对应的区域R使其包含k个训练样本，以此计算p（x）、
概率密度的表达式

2.KNN估计的优缺点：
优点：可以自适应的确定x相关的区域R的范围。
缺点：KNN概率密度估计不是连续函数。
不是真正的概率密度表达，概率密度函数积分是oo而不是1。

3.8 直方图与核密度估计

1.直方图估计
原理：基于无参数概率密度估计的基本原理：

区域R的确定
直接将特征空间分为m个格子(bins)，每个格子即为一个区域R，即区域的位置固定。
平均分格子大小，所以每个格子的体积(带宽)设为V= h，即区域的大小固定。
相邻格子不重叠。
落到每个格子里的训练样本个数不固定，即k值不需要给定。
2.直方图估计的优缺点：
优点：
固定区域R:减少由于噪声污染造成的估计误差。
不需要存储训练样本。
缺点：
固定区域R的位置:如果模式x落在相邻格子的交界区域，意味着当前格子不是以模式x为中心，导致统计和概率估计不准确。
固定区域R的大小:缺乏概率估计的自适应能力，导致过于尖锐或平滑。

3.核密度估计
估计也是基于无参数概率密度估计的基本原理
区域R的确定：以任意待估计模式x为中心、固定带宽h，以此确定一个区域R。

4.概率密度估计

核函数可以是高斯分布、均匀分布、三角分布等。
6.核密度估计的优缺点：
优点：
以待估计模式x为中心、自适应确定区域R的位置（类似KNN)。
使用所有训练样本，而不是基于第k 个近邻点来估计概率密度，从而克服KNN估计存在的噪声影响。
如果核函数是连续，则估计的概率密度函数也是连续的。
缺点：
与直方图估计相比，核密度估计不提前根据训练样本估计每个格子的统计值，所以它必须要存储所有训练样本。