机器学习基石第三讲笔记

第三讲介绍了不同类型的机器学习问题，根据4个方面划分：输出空间，标签，方式，输入空间。

1. 根据输出空间y不同划分：通过变换y的种类，可得到不同的机器学习问题

　　（1）y = {+1, -1}：二元分类问题，类似于做是非题，机器学习的基础。

　　（2）y = {0, 1, 2, ..., k}：k元分类问题，类似于做单选题。

　　（3）y = R：回归分析。

　　（4）y = structures：structured learning，给定一段序列，判断序列的各个部分属于哪种结构。比如，输入一个句子，判断句子里每个词语的词性；输入一段蛋白质序列，判断序列各部分属于哪种结构域。

2. 根据所用标签不同划分：

　　（1）supervised：所有输入的数据x_n都有相应的标签y_n，类似于老师给出了答案。

　　（2）unsupervised：输入的数据没有标签，对应于clustering，类似于老师不给答案。

　　（3）semi-supervised：只有部分数据有标签y_n，当给所有数据标上标签所需代价很大时使用。

　　（4）reinforcement：用goodness来提示标签，当没有明确的标签可以使用时使用。比如，一个广告系统根据客户以及广告的点击数来确定某个广告的好坏。

3. 根据所用学习方式不同划分：

　　（1）batch learning：给机器一批已知的资料用于学习。

　　（2）online learning：从不断接收到的一笔一笔资料中学习。比如，垃圾邮件过滤器。

　　（3）active learning：从资料中提出x_n，询问x_n对应的y_n，用于取得标签很贵的场合，用很少的标签就能完成学习。

4. 根据输入空间不同划分：从不同的input feature，找出最合适的，往往是机器学习成功的关键

　　（1）Concrete features: each dimension of x represents 'sophisticated physical meaning', often including 'human intelligence' on the learning task。

　　（2）Raw features: 'simple physical meaning'; thus more difficult for ML than concrete features; often need human or machines to convert to concrete ones。

　　（3）Abstract features: 'no physical meaning'; thus even more difficult for ML。

芳菲闌珊，夙緣鶗鴃，風駟雲軒愁誓約；夜蝶飛階，霎微雨闕，劍鋒無情人葬月。