机器学习第二次作业

模式识别

模式识别定义

模式识别：根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值
根据任务，模式识别可以划分为“分类”和“回归”两种形式，其中分类的输出量是离散的，回归的输出量是连续的。

模式识别数学表达

模式识别可以看做一种函数的映射，将待识别模式x从输入空间映射到输出空间

机器学习

模型是使用机器学习技术得到的。模型的参数和结构y=f(x|θ)
机器学习有以下几种：
有监督式学习：训练样本给定真值
无监督式学习：训练样本不给真值，用于聚类、图像分割等
半监督式学习：仅给定一部分训练样本的真值，用于网络流数据等
强化学习：真值滞后反馈，适用于需要累积多次决策才知道结果好坏的任务

评估方法与性能指标

评估方法：
留出法：直接将数据集D DD划分为两个互斥的部分，其中一部分作为训练集S SS，另一部分用作测试集T TT。
k折交叉验证：将数据集分割成k个子集，从其中选取单个子集作为测试集，其他k-1个子集作为训练集。
性能指标：
准确度：A=TP+TNTP+TN+FP+FN
查准率：S=TNTN+FP
召回率：R=TPTP+FN
PR曲线：召回率-精度
ROC曲线：FPR-TPR
AUC：曲线下方面积

分类器

MED分类器

基于距离的决策：把测试样本到每个类之间的距离作为决策模型，将测试样本判定为与其距离最近的类。
判别公式y∈C1,ifd(y,C1)<d(y,C2)

MICD分类器

利用马氏距离作为度量标准，最小类内距离分类器，存在均值一样，会选择方差较大的类
判别公式x∈C1,ifdM(x,C1)<dM(x,C2)
缺陷：MICD分类器会选择方差较大的类。

MAP分类器

最大后验概率（MAP）分类器：将测试样本决策分类给后验概率最大的那个类。
决策边界：对于二分类p(x|C1)p(C1)−p(x|C2)p(C2)=0
决策误差
为未选择的类所对应的后验概率
p(error|x)={p(C2|x)if decide x∈C1p(C1|x)if decide x∈C2

第三章介绍了最大后验概率分类器map分类器，根据贝叶斯公式得到决策边界p(x|C1)p(C1)>p(x|C2)p(C2)。在map分类器的基础上加上决策风险因素，得到贝叶斯分类器。在贝叶斯决策中，求取后验概率需要事先知道每个类的先验概率和观测似然概率。这两类概率分布需要通过机器学习算法得到，常用的参数估计方法有最大似然估计和贝叶斯估计。第三章最后介绍了常用的无参数估计技术：k近邻估计，直方图估计，核密度估计。

总体来说，除了一些带矩阵的公式的推导过程，其余的大部分内容我都能理解，现在我也在回顾以前学过的线性代数的知识，以及学习一些新的线代知识。