西瓜书机器学习绪论

数据集里面的每一条描述被称为实例或样本。实例或样本的某方面成为属性或特征。属性上的取值成为属性值。一个实例也可以成为特征向量。可以预测出的结果成为标记。拥有标记的实例称为样例。

标记空间或者输出空间。

如果要预测的是离散值，则称为“分类”，若预测的为连续值，则成为“回归”。只有两个类别的成为“二分类”，一个为“正类”，一个成为“反类”。多个类别时为“多分类”。

将训练集中的样本分为若干组称为“聚类”。

分类和回归属于监督学习，聚类属于无监督学习。

训练得到的模型可以很好的适用于新样本，称为“泛化能力”。训练样本越多，泛化能力越强。

归纳学习。

与训练集一致的假设空间称为“版本空间”。

归纳偏好。

“没有免费午餐”定理。

机器学习提供数据分析能力，云计算提供数据处理能力，众包提供数据标记能力。机器学习领域和数据库领域则是数据挖掘的两大支撑。