第一章 模式识别基本概念学习笔记

模式识别基本概念

什么是模式识别

  • 模式识别:根据已有知识的表达,针对待识别模式,判别决策其所属的类别或者预测其对应的回归值
  • 模式识别本质上是推理的过程。

模式识别数学表达

  • 数学解释:模式识别可以看做一种函数的映射,将待识别模式x从输入空间映射到输出空间

模型的概念

  • 模型:已有知识的表达式 y=f(x)
  • 模型的组成:特征提取+回归器+判别函数
    特征提取:从原始输入数据提取更有效的信息
    回归器:将特征映射到回归值
    判别函数:决策边界
  • 特征:用于区分不同类别模式的、可测量的量
  • 特性:具有辨别能力
  • 特征的鲁棒性:针对不同的观测条件仍能有效的判别类别之间的差异性
  • 特征向量

特征向量的相关性

  • 特征向量的点积
  • 特征向量的投影
  • 残差向量
  • 特征向量的欧式距离

机器学习基本概念

  • 机器学习拿什么学
    训练样本
  • 学什么
    y=f(x|θ)
    线性模型

    非线性模型即线性不可分
  • 机器学习怎么学
    目标函数:为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从而得到机器学习算法的模型参数
    -机器学习过程
  • 机器学习分类:
    无监督、半监督、监督式学习

模型的泛化能力

  • 泛化能力指,机器学习方法训练出来一个模型,对于已知的数据(训练集)性能表现良好,对于未知的数据(测试集)也应该表现良好的机器能力
  • 泛化能力低的表现
    过拟合:在训练阶段表现良好在测试阶段表现很差
    提高泛化能力:不要过度训练
    模型选择
    引入正则项
  • 多项式拟合超参数

评估方法与性能指标

  • 留出法
    留出法直接将数据集D DD划分为两个互斥的部分,其中一部分作为训练集S SS,另一部分用作测试集T TT。

通常训练集和测试集的比例为70%:30%。同时,训练集测试集的划分有两个注意事项:

1. 尽可能保持数据分布的一致性。避免因数据划分过程引入的额外偏差而对最终结果产生影响。在分类任务中,保留类别比例的采样方法称为“分层采样”(stratified sampling)。

2. 采用若干次随机划分避免单次使用留出法的不稳定性。

  • 性能测试指标
    经度&召回率

    F-Score

    混淆矩阵
原文地址:https://www.cnblogs.com/sy57/p/12823404.html