统计学习笔记(0)

统计学习分类:

  • 监督学习 (supervised learning)
  • 非监督学习 (unsupervised learning)
  • 半监督学习 (semi-supervised learning)
  • 强化学习 (reinforcement learning)

一直以为强化学习不属于统计学习的范畴,看来过去臆想了。

监督学习基本概念

输入、特征、输出空间

  • 输入与输出的所有值分别称之为输入空间输出空间
  • 所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征;
  • 有时,输入空间会和特征空间一致;有时会不同,输入空间往往会经过某些变换将输入空间映射到特征空间;
  • 模型实际是都是定义在特征空间上的;
  • 人们根据输入和输出变量的不同类型来区分不同的预测任务
    • 输入和输出均为连续变量的预测问题称之为回归问题
    • 输出为有限个离散变量的预测问题称之为分类问题
    • 输入和输出均为变量序列的预测问题称之为标注问题

联合概率分布

监督学习假设输入和输出遵循联合概率分布$P(X,Y)$.

假设空间

监督学习的目的在于学习一个有输入到输出的映射,这一映射由模型来表示。
模型属于由输入空间到输出空间的映射的集合,这一集合就是假设空间(hypothesis space),假设空间的确定意味着学习范围的确定。

监督学习的模型可以是概率模型或非概率模型,用条件概率分布或决策函数表示。

问题形式化

监督学习分学习和预测两个过程。学习过程是利用训练数据集学习一个模型,再用学习到的模型对测试样本进行预测,即预测过程。

一个具体的模型$y=f(x)$,对一个输入$x_i$,可以产生一个输出$f(x_i)$,而训练模型中对应的输出是$y_i$,如果这个模型训练的足够好,有很好的预测能力,则其训练样本的输出$y_i$和模型的输出$f(x_i)$之间的差就应该足够小。学习系统就是通过不断尝试,选取最好的模型,以便对训练数据集具有最好的预测,同时对未知的测试数据集的预测也有尽可能好的推广,即泛化能力。

统计学习三要素

  • 模型

    • 模型的假设空间包含所有可能的条件概率或决策函数
    • 参数空间
  • 策略
    学习的准则

    • 损失函数和风险函数

      • 0-1、 平方、 绝对、 对数损失函数
      • 损失函数的期望,即平均意义下的损失,称之为风险函数或期望损失
    • 经验风险最小化与结构风险最小化

      • 经验最小化的策略认为经验最小的模型是最优的,当样本数量很小时会出现“过拟合”
      • 结构最小化是为了防止“过拟合”提出,其等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则项或者惩罚项
      • $frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i)) +lambda ast J(f)$

      $J(f)$为模型的复杂度,模型越复杂,复杂度越大,即复杂度表示了对复杂模型的惩罚,$lambda$系数 大于0, 用以权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。

  • 算法

    • 统计学习问题归结为最优化问题

模型的评估与模型选择

  • 一般考虑到训练误差测试误差
  • 避免过拟合

正则化与交叉验证

  • 正则项一般有1-范数和2-范数
  • 交叉验证
    • 简单交叉验证,即随机将已知数据分2部分,分别作为训练和测试,然后将训练集在各种参数条件下训练,最后在测试集上评估,选出测试误差最小的模型;

    • S折交叉验证,首先随机将数据切分为S个互不相交的大小相同的子集,然后用S-1个子集用于训练,余下的作为测试,重复选择S次,最后选择S次测试中平均测试误差最小的模型

    • 留一交叉验证,S折交叉验证的特殊情形S=N,N为给定数据集的容量,即每次只有一个数据样本用于测试。

泛化能力

  • 即模型对未知数据的预测能力。
  • 理论上可以通过泛化误差上界的大小来进行分析。

生成模型与判别模型

  • 根据采用的方式是生成方法和判别方法而来。
  • 生成方法是由数据学习联合概率分布,然后求得条件概率分布作为模型
    • 典型有:朴素贝叶斯法和隐马尔科夫模型
  • 判别方法是由数据直接学习决策函数或者条件概率分布作为模型
    • 典型有:K近邻,感知机,决策树,逻辑回归,最大熵模型,SVM,提升方法(AdaBoost),条件随机场等

区别:

  • 生成方法可以还原出联合概率分布,判别则不行;
  • 生成方法学习的收敛速度更快
  • 当存在隐变量,仍可以用生成方法,而此时判别方法行不通
  • 判别方法直接学习条件概率或决策函数,直接预测,往往学习的准确率更高;由于直接学习,可以对数据进行各种程度上的抽象、定义特征并使用特征,也可以简化学习问题

面向问题

  • 分类问题

    • 指标:
      • TP--将正类分为正的;

      • FN--将正类分为负的;

      • FP--将负类分为正的;

      • TN--将负类分为负的。

      • 精确率 P = TP/(TP+FP)

      • 召回率 R = TP/(TP+FN)

      • 以上两者的调和均值 2/F = 1/P + 1/R

  • 标注问题

  • 回归问题

    • 一元回归和多元回归
    • 线性和非线性
    • 常用损失函数--平方损失函数

非监督学习

  • 数据没有类别信息,也不给定目标值
典型代表:
  • 聚类将数据集合分成由类似的对象组成的多个类
  • 密度估计用于寻找数据统计值
  • 降维,用于展示数据或者预处理

e.g

  • K-均值
  • 最大期望算法
  • DBSCAN(Density-based spatial clustering of applications with noise)
  • Parzen窗设计

参考:

统计学习方法,李航
机器学习实战, Peter Harrington

该博客停止更新,继续关注请移步: www.foolweel.com
原文地址:https://www.cnblogs.com/Qwells/p/5414945.html