机器学习-1 基本概念

一、机器学习概念

　　训练集(training set/data)/训练样例(training examples)：用来进行训练，也就是产生模型或者算法的数据集。

　　测试集(testing set/data)/测试样例(testing examples)：用来专门进行测试已经学习好的模型或者算法的数据集。

　　特征向量(features vector)：属性的集合，通常用一个向量来表示，附属于一个实例。

　　注意：这里的特征向量不是指线性代数中的特征向量。

　　标记(label)： 实例类别的标记。用于监督学习。

　　正例(positive example)：例如标记中的“正确”。

　　反例(negative example)：例如标记中的“错误”。

　　分类(classification)：目标标记为类别型（不连续）数据(category)，例如去、不去，是、否等。

　　回归(regression)：目标标记为连续性数值(continuous numeric value)，例如房价、分数等。

　　我们在训练模型时，按照训练集中是否包含类别标记，可以分为以下几种：

　　有监督学习(supervised learning)：训练集有类别标记(class label)。

　　无监督学习(unsupervised learning)：训练集无类别标记。

　　半监督学习(semi-supervised learning)：有类别标记的训练集 + 无标记的训练集。

　　1.把数据拆分为训练集和测试集

　　2.用训练集来训练算法（模型 model）

　　3.用学习来的算法（模型）运用在测试集上进行评估，调整参数(parameter tuning)等。