基本术语

要进行机器学习，先要有数据记录
这组记录的集合称为一个"数据集“

每条记录是关于一个事件或对象的描述称为"示例" (instance) 或"样本" (samp1e). (色泽=浅自;根蒂t硬挺;敲声=清脆)

反映事件或对象在某方面的表现或性质的事项（例如"色泽""根蒂" "敲声"）称为 属性或"特征" (feature); 属性值（乌黑）

属性张成的空间称为"属性空间" (attribute space) 、"样本空间" (samp1e space)或"输入空间"

从数据中学得模型的过程称为"学习" (le缸ning)或"训练" (training)

训练过程中使用的数据称为"训练数据" (training data) ，其中每个样本称为一个训练样本" (training samp1e),

训练样本组成的集合称为"训练集" (training set).

例如"好瓜"，称为"标
记" (labe1); 拥有了标记信息的示例，则称为"样例" (examp1e).

例如"好瓜" "坏瓜"，此类学习任务称为
"分类" (classification); 若欲预测的是连续值?例如西瓜成熟度0.95 、0.37 ，
此类学习任务称为"回归" (regression).

学得模型后，使用其进行预测的过程称为"测试" (testing) ，被预测的样本
称为测试样本" (testing sample).

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类"监督学习"和学习" (supervised learning) 和"无监督学习" (unsupervised learning) ，分类和回归是前者的代表，而聚类则是后者的代表.