机器学习(一)基础术语概念

什么是机器学习？

　　机器学习是一门类似于人类根据生活中的经验预测之后可能会发生的结果的学科，好比我们从小可能接触到的谚语：燕子低飞蛇过道，大雨不久就来到。在这里，燕子低飞蛇过道就是人们在大雨前常常观察到的一种现象，久而久之人们便发现往往出现这种现象时，马上就会下起大雨————从而成为了人们生活中的一种经验。而即将到来的大雨，就是我们根据经验而产生的一种预测。机器学习研究的主要内容是关于在计算机上从数据中产生“模型”的算法，即学习算法。

　　机器学习也是，机器学习是通过收集到的数据（我们所观察到的现象），生成与之有关的模型（我们所得到的经验），然后预测相关的结果（马上就会下的大雨）。书中官方的描述是：假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能上的改善，则我们就说关于T和P，该程序对E进行了学习。

基本术语：

　　美食大概是我们都馋涎的。以菜为例，比如说土豆烧牛肉，对于它我们可以有几点考虑，它的材料，味道，色泽等。我们就叫它们为土豆烧牛肉的属性或特征。而对于（材料=土豆和牛肉，味道=外焦里嫩，色泽=金黄）这样一组数据，我们称为一个示例或者样本，而当菜谱上所有的菜都如这样展开时，所构成的集合我们可以称之为数据集。在其中对于那些属性的具体取值，称为属性值。属性张成的空间我们称之为 “属性空间” ，“样本空间” 或 “输入空间”。例如：对于土豆烧牛肉，他有三个属性：材料，味道，色泽。我们可以以每个属性为一条坐标，生成一个三维的坐标空间。而对与菜谱中的每一道菜，我们都可以在这个形成的三维空间中找到他们各自的对应位置，因此，我们也称每一个示例为一个特征向量。

　　从数据中学到模型的过程称为 “学习” 或 “训练”，真个过程通过执行某个学习算法来实现。训练过程中使用的数据称为“训练数据”，其中每个样本称之为“训练样本”，所有训练样本组成的集合称之为“训练集”。

　　学得模型对应了关于数据的某种潜在的规律，因此称之为“假设”；这种潜在规律自身，则称之为“真相”，学习过程就是为了找出或者逼近真相。

　　因为我们最终是需要做一些类似于‘预测’性的东西，即帮我们判断在我们面前的菜是否可口，好吃。我们需要在之前的样本的基础上加上一点标注，即满足（（味道=外焦里嫩，色泽=金黄），可口），这里的可口叫做标记，而有标记的样本我们称之为样例。而有标记的训练集的机器学习方式我们称之为：监督学习。相反，没有标记的训练集的机器学习方式称之为：无监督学习。（分类和回归是监督学习的代表，聚类是无监督学习的代表）

　　一般的，用(xi,yi)表示第i个样例，其中yi€Y,是样本xi的标记，Y是所有标记的集合，亦称为“标记空间”（label space）或“输出空间”。

　　若我们想预测的是离散值，例如：好，坏，此类学习任务称为“分类”（classification）；若想预测的是连续值，例如人的身高增长程度0.95,0,28；此类学习任务称为“回归”（regression）。

　　学的模型后，使用其进行预测的过程称为“测试”（testing）。被预测的样本称为“测试样本”。例如在学得f后，对样例xi，可得其预测标记y=f(x).

　　学得模型，适用于新样本的能力，我们称之为 “泛化”（generalization）能力。具有强泛化能力的模型能很好的适用于整个样本空间。

1.3 假设空间

　　归纳和演绎是科学推理的两大基本手段。

　　归纳是一个从特殊到一般的过程，通过从种种特殊的对象中总结出普遍认可的一般规律。

　　演绎是一个从一般到特殊的过程。

　　从样例中学习，显然是一个从特殊到一般的的归纳过程，因此亦称为“归纳学习”（inductive learning）

　　归纳学习有广义和狭义之分。广义的归纳学习大体相当于从样例中学习，而狭义的归纳学习则要求从训练数据中学得概念（concept）,因此又称为“概念学习”或“概念形成”。

　　我们把学习过程看作是一个在所有假设（hypothesis）组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”（fit）的假设。假设的表示一旦确认，假设空间及其规模大小就确定了。

　　在现实生活中，我们面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，我们称之为“版本空间”（version space）。

1.4归纳偏好

　　对于一个具体的学习算法而言，它必须产生一个模型。这时，学习算法本身的偏好就会起到关键的作用。

　　机器学习算法在学习过程中对于某种类型假设的偏好，称之为“归纳偏好”（indictive bias），或简称“偏好”。

　　任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”假设所迷惑，而无法产生确定的学习结果。

　　归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。