框架处理--机器学习术语

机器学习主要术语

机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

在简单的线性回归中，特征是输入变量，即x变量。简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数万个特征，按照如下方式指定：

{x_1, x_2, ... x_N}

在垃圾邮件检测器示例中，特征可能包括：

样本是指数据的特定实例：X。（我们采用粗体表示他是一个矢量。）我们将样本分为以下两类：

有标签样本同时包含特征和标签。即：

labeled examples: {features, label}: (x, y)

我们使用有标签样本来训练模型。在我们的垃圾邮件检测器示例中，有标签样本是用户明确标记为“垃圾邮件”和“非垃圾邮件”的各个电子邮件。

例如，下表显示了从包含加利福尼亚州房价信息的数据集中抽取的五个有标签样本：

housingMedianAge （特征）	totalRooms （特征）	totalBedrooms （特征）	medianHouseValue （标签）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

无标签样本包含特征，但是不包含标签。即：

unlabeled examples: {features, ?}: (x, ?)

模型定义了特征与标签之间的关系。例如，垃圾邮件监测模型可能会将某些特征与“垃圾邮件”紧密联系起来。模型生命周期的两个重要阶段：

分类模型可以预测离散值。例如，分类模型可以做出的预测可回答如下问题：

回归模型可以预测连续值。例如，回归模型做出的预测可以回答如下问题：