统计学习方法概论-1

Herbert A.Simon：如果一个系统能够通过执行某个过程改进它的性能，就是学习

统计学习（statistical learning，统计机器学习）

1、定义：计算机系统运用数据及统计方法提高系统性能

2、特点：计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析

3、分类：监督学习 (supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、强化学习(reinforcement learning)

4、三要素：模型(model) + 策略(strategy) + 算法(algorithm)

5、步骤：

　　a、得到一个有限的训练数据集合；

　　b、确定包含所有可能的模型的假设空间，即学习模型的集合；

　　c、确定模型选择的准则，即学习的策略；

　　d、实现求解最优模型的算法，即学习的算法（求解最优化问题的算法）；

　　e、通过学习方法选择最优模型；

　　f、利用学习的最优模型对新数据进行预测或者分析。

监督学习：利用训练数据集（人工给出）学习一个模型，再用模型对测试样本集进行预测。模型输入输出（X,Y）服从联合概率分布。

　　独立同分布：两个独立的随机变量，其取值不会互相影响；且这两个随机变量服从同一分布（相同的分布形状和分布参数）

　　联合概率分布（联合分布）：两个及以上随机变量组成的随机向量的概率分布，如P(X，Y)

根据输入、输出变量的不同类型，对预测任务给予不同的名称：连续变量--回归问题、离散变量--分类问题、变量序列--标注问题

　　输入空间input space、特征空间feature space、输出空间output space

　　实例instance是每一个具体的输入，由特征向量feature vector表示

　　变量用大写字母表示，变量的值用小写字母表示

　　训练数据training data 测试数据test data，由输入输出对（即样本或者样本点）组成

6、模型

　　监督学习中，模型就是所要学习的概率模型（条件概率分布）或者非概率模型（决策函数），模型都是定义在特征空间的

　　　　　　　　　　　　图监督学习问题

7、策略

　　a、损失函数：度量一次预测的好坏，将预测值f(X)与真实值Y作比较，损失越小、模型越好

　　　　4种常用损失函数（loss function）如下：

　　b、风险函数：度量平均意义下模型预测的好坏

　　（1）期望风险：因为P(x,y)未知而无法计算

　　　（2）经验风险：样本数量N趋于无穷时，经验损失≈期望损失

　　　可以用经验风险估计期望风险。而如果样本数量有限甚至很小，要对经验风险进行矫正，才能取得理想效果。

　　c、矫正方法

（1）经验风险最小化（empirical risk minimization，ERM）

　　　　　　样本数量足够大，经验风险最小化学习效果好，如极大似然估计（maximum likelihood estimation）

　　　　　　样本数量很小，经验风险最小化会产生“过拟合”（over-fitting）

　　（2）结构风险最小化（structural risk minimization，SRM）：防止“过拟合”

　　　　　　结构风险 = 经验风险 + 正则化项（模型复杂度）

　　　　　　结构风险小需要经验风险小和模型复杂度小，如贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation，MAP）

8、模型选择

图训练误差和测试误差与模型复杂度的关系

　　　　　　训练误差：太小致模型过于复杂、过拟合，偏向用于判断给定问题是不是容易学习

　　　　　　测试误差：大小表示泛化能力的大小，更小表示模型更有效，是更重要的判断标准

　　　　　　选择复杂度合适的模型的两种方法：正则化与交叉验证