机器学习（2）

一、基本术语

1.18泛化：学得模型是否适用于新样本的能力

注：假设样本空间的全体样本服从于一个未知的分布D，我们得到的样本都是独立从D上采样得到的，即“独立同分布”。训练样本越多，地道道关于D的信息越多，也就也可能通过学习得到强泛化能力的模型

1.19归纳：从特殊到一般的“泛化”过程

1.20演绎：从一般到特殊的“泛化”过程，即从基础原理推演出具体状况

注：从样例中学习为“归纳学习”

广义的归纳学习大体为从样例中学习，狭义的为从训练数据中学得概念

1.21布尔概念学习：即对“是”“不是”这样的学习

二、模型评估与选择

2.1经验误差与过拟合

在m个样本中，含有a个错误，则E=a/m为错误率，1-E为精度

学习器在训练集上的误差称为“训练误差”或"经验误差"。

在新样本上称为“泛化误差”

若学习器把训练样本自身的一些特点当作了所有潜在样本都会有的性质，就会导致泛化性能下降，即“过拟合”

与之相对的是“欠拟合”是没有将训练样本的一般性质学好

注：“过拟合”无法避免，只能缓解

2.2评估方法

“测试集”：用来测试学习器对新样本的判别能力

测试集应该尽可能与训练集互斥

我们可以将数据集分成测试集与训练集