统计学习的相关定义

1. 什么是统计学习？

　　统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。具有以下特点：

　　（1）以计算机和网络为平台；（2）以数据为对象，数据驱动的学科；（3）目的是对数据进行预测和分析；（4）以方法为中心，统计学习方法构建模型并应用模型进行预测和分析；（5）概率论、信息论、计算理论、最优化理论及计算机学习的交叉学科。

　　统计学习方法的步骤：

　　（1）得到一个有限的训练数据集合；（2）得到包含所有可能的模型的假设空间，即学习模型的集合；（3）确定模型选择的准则，即学习的策略；（4）实现求解最优模型的算法，即学习的算法；（5）通过学习方法选择最优的学习模型；（6）利用学习的最优模型对新数据进行预测和分析；

2. 统计学习的三要素

　　方法=模型+策略+算法；构建一种统计学习方法就是确定具体的统计学习三要素；

　　统计学习首先要考虑的是学习什么样的模型。在监督学习过程中，模型就是要学习的条件概率分布或决策函数。

　　按照什么样的准则学习或选择最优的模型。

　　　　损失函数：度量模型一次预测的好坏。常用的损失函数有：0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等；

　　　　风险函数：度量平均意义下模型预测的好坏。

　　　　　　经验风险函数：

　　　　　　　　　　　　　当容量很小时，经验风险函数会产生“过拟合”的情况

　　　　　　结构风险函数：

　　　　　　　　　　　　　结构风险（正则化）是为了防止过拟合提出的策略，在经验风险函数加上表示模型复杂度的正则化项（罚项）。J(f)为模型的复杂度，表示了对复杂模型的惩罚。λ>=0是系数，权衡经验风险和模型复杂度。

　　从假设空间中选择最优模型，需要考虑用什么样的计算方法求解最优模型。

　　　　学习的目标就是要让期望风险（经验风险、结构风险）最小化，因此问题就转化为了最优化问题（两个主要问题：如何保证找到全局最优解，如何使求解过程高效）

3. 模型的评估与选择

　　给定两种学习方法，测试误差小的方法具有更好的预测能力，是更有效的方法，通常将学习方法对未知数据的预测能力称为泛化能力。

　　过拟合（voer-fitting）指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。模型的选择旨在避免过拟合并提高模型的预测能力。

　　模型选择方法：正则化和交叉验证

　　　　正则化：加入罚项（结构风险最小化）

　　　　交叉验证：（主要是考虑到数据量不足的现状）简单交叉验证方法、S折交叉验证方法、留一交叉验证方法。

4, 泛化能力

　　训练误差反映的是给定的问题是不是一个容易学习的问题（本质上不重要）；测试误差反映的是学习方法对未知数据的预测能力（本质上重要的性质）。

　　泛化误差：学到的模型为f(x),那么用这个模型对未知数据预测的误差就是泛化误差。

　　泛化误差上界性质：

　　　　是样本容量的函数，当样本容量增加时，泛化上界趋于0；

　　　　是假设空间容量的函数，假设空间容量越大，模型越难学，泛化误差上界越大。

5. 生成模型和判别模型

　　生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率P（Y|X）作为预测的模型，即生成模型。

　　　　　　典型的生成模型有：朴素贝叶斯和隐马尔科夫模型等；　　

　　　　　　特点：生成方法可以还原出联合概率分布P（X,Y）,而判别方法则不能；生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，只能用生成学习方法。

　　判别方法由数据直接学习决策函数f(X)或者条件概率分布P（Y|X）作为预测的模型，即判别模型。

　　　　　　典型的判别模型有：K紧邻法、感知机、决策树、Logist回归模型、最大熵模型、支持向量机、提升方法和条件随机场等；

　　　　　　特点：判别方法直接学习的是条件概率P（Y|X）或决策函数f(X)，直接面对预测，往往学习的准确率更高；由于直接学习P（Y|X）或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征。

6. 监督学习中的三类主要问题

　　回归问题：输入变量与输出变量均为连续变量的预测问题；

　　　　回归问题的学习等价于函数拟合：选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

　　　　回归问题：一元回归和多元回归；线性回归和非线性回归；

　　分类问题：输出变量为有限个离散变量的预测问题；

　　　　评价分类器性能的指标一般是分类准确率：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比；

　　　　对于二分类问题常用的评价指标是精确率和召回率。

　　　　常用的统计学习分类方法：K紧邻法、感知机、决策树、Logist回归模型、最大熵模型、支持向量机、朴素贝叶斯等。

　　标注问题：输入变量与输出变量均为变量序列的预测问题；

　　　　评价标注模型的指标与评价分类模型的指标一样，常用的有标注准确率、精确率和召回率。

　　　　标注常用的统计学习方法有：隐马尔科夫模型、条件随机场等