第一章模式识别基本概念学习笔记

第一章模式识别基本概念学习笔记

模式识别基本概念

什么是模式识别

模式识别：根据已有知识的表达，针对待识别模式，判别决策其所属的类别或者预测其对应的回归值
模式识别本质上是推理的过程。

模式识别数学表达

数学解释：模式识别可以看做一种函数的映射，将待识别模式x从输入空间映射到输出空间

模型的概念

模型：已有知识的表达式 y=f(x)
模型的组成：特征提取+回归器+判别函数
特征提取：从原始输入数据提取更有效的信息
回归器：将特征映射到回归值
判别函数：决策边界
特征：用于区分不同类别模式的、可测量的量
特性：具有辨别能力
特征的鲁棒性：针对不同的观测条件仍能有效的判别类别之间的差异性
特征向量

特征向量的相关性

特征向量的点积
特征向量的投影
残差向量
特征向量的欧式距离

机器学习基本概念

机器学习拿什么学
训练样本
学什么
y=f（x|θ）
线性模型

非线性模型即线性不可分
机器学习怎么学
目标函数：为了完成某一目标，需要构造出一个“目标函数”来，然后让该函数取极大值或极小值，从而得到机器学习算法的模型参数
-机器学习过程
机器学习分类：
无监督、半监督、监督式学习

模型的泛化能力

泛化能力指,机器学习方法训练出来一个模型,对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好的机器能力
泛化能力低的表现
过拟合：在训练阶段表现良好在测试阶段表现很差
提高泛化能力：不要过度训练
模型选择
引入正则项
多项式拟合超参数

评估方法与性能指标

留出法
留出法直接将数据集D DD划分为两个互斥的部分，其中一部分作为训练集S SS，另一部分用作测试集T TT。

通常训练集和测试集的比例为70%：30%。同时，训练集测试集的划分有两个注意事项：

1. 尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中，保留类别比例的采样方法称为“分层采样”（stratified sampling）。

2. 采用若干次随机划分避免单次使用留出法的不稳定性。

性能测试指标
经度&召回率

F-Score

混淆矩阵

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/sy57/p/12823404.html