Georgia Tech

机器学习的分类

1.监督学习(supervised learning)

获取已标记的数据集,通过标记的数据集来收集信息,以便能标记新的数据集,也就是一个函数逼近的过程。

所有的机器学习,当然也包括监督学习,都与归纳而非演绎有关。归纳很重要,归纳偏差也很重要。

监督学习就是一个 从训练样本--> 泛化函数-->测试样本 的一个过程。

2. 非监督学习 (unsupervised learning)

没有训练样本,只有类似一堆输入的数据的东西,必须通过查看输入数据本身之间的关系去推导出某些结构。

3. 增强学习(reinforcement learning)

通过延迟奖赏进行学习,决策后,可能经过几个步骤后才能产生返回

机器学习->监督学习

分类和回归

classification : 分类是一个获取某类输入的过程,根据输入映射为离散的标签。比如输入是一幅幅的照片,判断分类为:男,女。

regression : 回归是根据一些点,拟合出一个线(函数),然后给出一个x ,求对应的y的过程。回归处理的是连续的函数。可以想象成:二维坐标系里,给出一些点,画出拟合的曲线,然后求新点x的y值。

分类和回归的区别:

分类: 从某种输入映射到少量的离散的值。

回归:从某种输入空间映射到实际的数值。

是分类还是回归,关键在于输出是小的离散集,还是连续集。两者的区别和输入无关,只和输出相关。输出是连续的,则为回归,离散的,则为分类。

机器学习->监督学习->分类学习 (classification learning)

首先还是基本概念

instance: 即input

实例定义了输入空间,可以是照片,及构成照片的全部像素。(即要了解的事物的集合)  

concept: 即function(映射)

概念就是事物之间的映射函数,或映射关系。以及一个集合中的成员关系(描述如何进行映射)。比如教会机器关于动物”概念“,机器根据动物这个“概念”对物体分类。

target concept: 即answer.

target concept和一般concept的区别是,目标概念才是我们要得到的东西,是实际的答案。也就是决定某个东西是不是汽车,是公是母的函数。找到了target concept,我可以说,我脑子有关于汽车,公母概念的认知。单除非经过书面的确认,否则我不知道这种认知是否正确。将输入映射到输出的所有concept中必定有我们要找到的target concept.

hypothesis: 即hypothesis class.

假设类 就是愿意考虑的所有概念的集合,即愿意考虑的所有函数,原话:(all functions i willing to consider); 世界上所有的可能的函数(all possible function),即所有完美合理的假设类,但是得到这种集合非常难,特别是在给定的数据有限的前提下。

Sample: 即Training set

由所有的输入(比如人的照片)和正确的输出(即与之配对的标签)组成的集合。比如:[{"有头发":T},{"光头":F},...],大量的输入输出对的实例即为一个训练集,这也是机器弄明白什么是正确的概念或函数的依据。

比如,你对机器解释何为"高"这一概念,但是你并没给一个标准,不告诉"高"的含义,只是给了一堆例子: 这个为高,那个不高,等等,这就是对机器解释目标概念的形式,即归纳学习法。

candidate:

是一个你认为可能会是目标概念的概念。

Testing : 即Testing set.

类似于Training set, 但是我们使用Testing set去测试candidate, 使用training set 去学习。 不能使用training set 去测试,否则就是作弊。

training set中应该有许多的示例,testing set 中应包含许多training set中没有的示例。一个成功的candidate必须可以泛化,泛化才是机器学习的关键

原文地址:https://www.cnblogs.com/shonelau/p/6379030.html