统计学习概念

统计学习是基于数据构建统计模型从而对数据进行预测与分析，统计学习由监督学习，非监督学习，半监督学习和强化学习等组成

统计学习由模型的假设空间（学习的模型属于某个函数的集合），模型选择的准则，及模型学习的算法

统计学习方法步骤如下：

（1）得到一个有限的训练数据集合

（2）确定包含所有可能的模型的假设空间（学习模型的集合）

（3）确定模型选择的准则，即学习的策略

（4）实现求解最优模型的算法即学习的算法

（5）通过学习方法选择最优模型

（6）利用学习的最优模型对新数据进行预测或分析

1.监督学习

1）输入特征向量，每一维对应一个特征，如x=（x⁽¹⁾,x^(2),....x⁽ⁿ⁾),其中x⁽ⁱ⁾表示x的第i特征X_i表示多个输入中的第i个

2）输入变量和输出变量均为连续变量的预测问题称为回归问题，输出变量为有限个离散变量的预测问题称为分类问题；输入与输出变量均为变量序列的预测问题称为标注

3）监督学习的模型可以使概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示

2、损失函数度量一次预测的好坏，分先函数度量评价意义下模型预测的好坏，损失函数式f（X)和Y的非负实值函数记作L(Y,f(X))

常用的损失函数0-1损失函数（0—1 loss function）（Y与f(X)不等为1，相等为0），平方损失函数(quadratic loss funcition)（Y-X)^2,绝对损失函数(absolute loss function)|Y-f(X)|，对数损失函数(logarithmic loss function)或者对数似然损失函数(log-likelihood loss function)（-logP(Y|X)）

风险函数是期望的损失

经验风险最小化:min 1/N∑L(yi,f(xi)) ,当样本容量很小时会产生过拟合（over-fitting）的现象

结构风险最小化是为防止过拟合而提出的，定义为Rsrm= 1/N∑L(yi,f(xi))+rJ（f），其中J(f)为模型的复杂度，模型f越复杂度J(f)越大（贝叶斯估计中最大后验概率估计MAP就是结构风险最小化的例子）

3.I是指示函数（indicator function）y=f(X)时为1否则为0

通常将学习方法对未知数据的预测能力称为泛化能力（generalization ability）

过拟合是学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对未知数据预测的很差的现象，因为训练数据本身存在噪声，测试误差会随着多项式的次数的增加先减小后增加

模型选择方法：正则化与交叉验证

正则化：

min（1/N∑L(yi,f(xi))+rJ（f）），J（f）是正则化项，有不同的形式，在回归问题中正则化项可以是参数向量L2范式，也可以是L1范式

交叉验证：

若数据充足：将数据集随机分成训练集、验证集、测试集；训练集用于训练模型，验证集用于模型选择，测试集用于对学习方法的评估，要选择对验证集有最小预测误差的模型

数据不足：交叉验证反复使用数据：把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复进行训练、测试及模型选择

应用最多的是S折交叉验证：随机将数据切分成s个互不相交的大小相同的子集，然后利用S-1个自己的数据训练模型，利用剩下的自己测试模型；将这一过程对可能的s中选择重复进行，最后选出s此凭此中平均误差最小的模型

4.泛化能力值由该方法学习到的模型对未来数据的预测能力

这种评价依赖于测试数据集的

泛化误差上界：他是样本容量的函数，样本容量增加，泛化上界趋于0，假设空间容量越大，模型越难学，泛化误差越大

生成模型,由数据学习联合概率分布，然后求出条件概率分布：P(Y|X)=P(X,Y)/P(X)

判别方法：由数据直接学习决策函数f（X)或者条件分布P(Y|X)

生成方法：可还原P(X，Y)判别不能；学习收敛速度快，即样本容量增加时，学到的模型可以很快的收敛到真实模型，存在隐变量的时候也能

判别方法：直接面对预测，准确率高，简化学习问题

5.分类问题

5.标注：

标注的输入是一个观测序列，输出时一个标记序列或者状态序列

常见的例子隐马尔科夫模型，条件随机场

6.回归问题按照输入变量的个数分为医院回归、多元回归，输入变量与输出变量的关系分为线性回归和非线性回归，回归学习最常用的损失函数是平方损失函数，在此情况下，函数回归问题有著名的最小二乘法求解

Knowing others is intelligence; Knowing yourself is true wisdom