《统计学习方法》第一章学习笔记

题外话（非书中所有）：统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像，那么统计学习和机器学习的区别在哪？从网上查了一些资料没找到明显的区别，如果有，大概是统计学习中的方法都是理论上可以证明的，机器学习中的方法更讲究实用，虽然理论上可能还未证明。如最近比较热的Deep Learning，就是理论上还未证明其正确性。

一、统计学习的特点：

统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。

实现统计学习方法的步骤：

1）得到一个有限的训练数据集；

　 2）确定包含所有可能的模型的假设空间；

3）确定模型选择的准则，即学习的策略；

4）实现求解最优模型的算法；

5）选择最优模型，对新数据进行预测或分析；

二、基本概念：

输入与输出所有可能取值的集合分别称为输入空间和输出空间。每个具体的输入是一个实例，通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际都是定义在特征空间上的。

根据输入、输出变量的不同，可以将统计学习问题划分为：回归问题——输入、输出均为连续变量，分类问题——输入连续、输出离散，标注问题——输入、输出均为变量序列，如给句子分词、标词性等问题。感兴趣的可以想想，如果输入为离散，输出为连续，像预测房屋价格这样的问题，属于哪一类？应如何解决？

监督学习的模型可以是概率模型或非概率模型，由条件概率分布 ( P(Y | X) ) 或决策函数（decision function） ( Y=f(X) ) 表示，随具体学习方法而定。

三、统计学习三要素：

1）模型：

模型是指所要学习的条件概率分布或决策函数，模型所组成的空间为假设空间，根据模型为概率模型或非概率模型，假设空间可以表示为：

( F = ig{ f | Y=f(X) ig} ) 或 ( F = ig{ P | P(Y|X) ig} )

用参数空间表示即为： ( F = ig{ f | Y=f_{ heta}(X), heta in R^{n} ig} ) 或 ( F = ig{ P | P_{ heta}(Y|X), heta in R^{n} ig} )

2）策略：

　　1、损失函数和风险函数：

为了从假设空间中选取最优模型，引入损失函数与风险函数的概念，损失函数度量模型一次的预测结果的好坏，风险函数度量平均意义下模型预测的好坏。

常用的损失函数有：

0-1损失函数 ( L(Y, f(X)) = egin{cases}1, & Y eq f(X) \ 0, & Y = f(X) end{cases} )
平方损失函数 ( L(Y, f(X)) = (Y - f(X))^2 )
对数损失函数 ( L(Y, P(Y|X))=-logP(Y|X) )

风险函数，即损失函数的期望： ( R_{exp} = E_{P}[L(Y, f(X))] = int_{X imes Y} L(y, f(x)) P(x,y) dxdy ) ，这里 ( P(X,Y) ) 是输入、输出变量 ( (X,Y) )

的联合概率分布，当然 ( P(X,Y) ) 是未知的。如果知道 ( P(X,Y) ) ，就可以从联合分布求出条件概率分布 ( P(X,Y) ) ，也就不需要学习了。

经验风险，即关于训练数据集的平均损失， ( R_{emp}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) 。根据大数定律，当样本容量N趋于无穷时，经验风险 ( R_{emp}(f) ) 趋于期望风险 ( R_{exp}(f) ) 。所以很自然的想法是用经验风险估计期望风险，但由于训练样本有限，甚至很小，所以用经验风险估计期望风险并不理想，要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

　 2、经验风险最小化和结构风险最小化：

经验风险最小化，就是求解最优化问题： ( min_{f in F} frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) ，其中 ( F ) 是假设空间。

结构风险最小化，是为了防止过拟合，而在经验风险基础上加上表示模型复杂度的正则化项或罚项，定义为： ( R_{srm}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) + lambda J(f) ) ，( lambda geq 0 ) ，其中 ( J(f) ) 为模型的复杂度，是定义在假设空间 ( F ) 上的泛函。模型 ( f ) 越复杂，复杂度 ( J(f) ) 就越大。

书中提到，贝叶斯估计中的最大后验概率估计就是结构风险最小化。因为 ( heta = max_{ heta} f(x| heta ) h( heta ) = max_{ heta} [log f(x| heta) + log h( heta )] = min_{ heta } [-log f( x| heta) - log h( heta )] )，所以当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计。

正则化，是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项，它的一般形式即 (R_{srm} )的定义。正则化项可以取不同的形式，如回归问题中，正则化项可以是参数向量的 ( L_{2} )范数：