统计学习方法-李航第一章

第一章统计学习方法概论

学习：如果一个系统能够通过执行某个过程改进它的性能，这就是学习

监督学习：从训练数据集中学习模型，对测试数据进行预测

回归问题：输入变量与输出变量均为连续变量的预测问题

分类问题：输出变量为有限个离散变量的预测问题

标注问题：输入变量与输出变量均为变量序列的预测问题

损失函数：度量预测错误的程度

经验风险：训练数据集的平均损失

期望风险：损失函数的期望值

根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险

泛化能力：指由该方法学习到的模型对未知数据的预测能力

过拟合：指学习时选择的模型所包含的参数过多，以致于出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象

如果训练数据本身存在噪声，拟合曲线对未知数据的预测能力并不好

模型选择时，不仅要考虑对已知数据的预测能力，而且要考虑对未知数据的预测能力

正则化：在经验风险上加一个正则化项或罚项

奥卡姆剃刀原理：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的模型，也是应该选择的模型

交叉验证：首先随机地将已知数据切分为S个互不相交的大小相同的子集；然后利用S-1个子集的数据训练模型，利用余下的子集测试数据；

将这一过程对可能的S种选择重复进行，最后选出S次测评中平均测试误差最小的模型。

TP：将正类预测为正类数

FN：将正类预测为负类数

FP：将负类预测为正类数

TN：将负类预测为负类数

精确率：P=TP/(TP+FP)

召回率：R=TP/(TP+FN)

2/F1=1/P + 1/R

伯努利模型：定义在取值为0和1的随机变量上的概率分布。

假设观测到伯努利模型n次独立的数据生成结果，其中k次的结果为1，这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

机器学习：在计算机系统中，经验通常以数据形式存在，机器学习所研究的主要内容，是关于在计算机上从数据产生模型的算法，即学习算法。

有了学习算法，我们把经验数据提供给他，它就能基于这些数据产生模型；在面对新的情况时，模型会给我们提供相应的判断。