斯坦福2014机器学习笔记一----基本概念与线性回归

　　一、纲要

　　　　机器学习的定义

　　　　监督学习(supervised learning)和无监督学习(unsupervised learning)

　　　　回归问题(regression problem)与分类问题(classification problem)

　　　　鸡尾酒宴问题

　　　　单变量线性回归问题

　　二、概念介绍

　　1.什么是机器学习？

　　一个叫Tom的人对机器学习的定义为：一个程序被认为能从经验E中学习，解决任务T，达到性能P，当且仅当，有了经验E之后，经过度量P的评判，程序在处理T的性能有所提升。这个定义中有三个量：经验E，任务T和度量P。这里引用视频中的一个例子可以更通俗的理解机器学习：一个并不擅长跳棋的人编写了一个跳棋程序，这个程序的牛逼之处在于在他跟程序下了N盘棋之后，程序可以通过观察哪种棋局会赢，哪种棋局会输，从而学习好的布局，这段程序的下棋水平也就越来越高。这就很像之前的AlphaGo，也正是这个AlphaGo，让AI火的一塌糊涂。

　　2.监督学习与无监督学习

　　监督学习就是我们教计算机如何做事情，我们给出一个数据集，然后给出正确答案。

　　无监督学习就是计算机自己学习怎么做事情，只有一个数据集，计算机自己去找出一种结构。

　　举个例子：有一堆邮件，我们把这看成是一个数据集，如果我们让计算机把这堆邮件分成普通邮件和垃圾邮件(spam)，这是监督学习还是无监督学习？答案是监督学习，因为我们给定了“答案”即分成普通邮件和垃圾邮件。那无监督学习该怎么描述呢？我们让计算机自己去处理这些邮件中，处理的结果可能是将这些邮件分为两类，普通邮件和垃圾邮件。这其实是一种聚类算法。

　　聚类算法的另一个例子：Google每天搜索成千上万条新闻，然后自动的把他们分成不同的专题，这也属于无监督学习、聚类算法

　　3.回归问题与分类问题

　　回归问题即预测连续的输出值，而分类问题是预测离散的输出值。这里的连续跟离散是什么意思呢？还是用例子说明。如果我们需要出售房屋，自变量是房屋的面积，因变量(输出值)是房屋的价格，那么这个输出值就是连续的。作为对比说明离散值，我们需要根据肿瘤的尺寸预测肿瘤是良性的还是恶性的，那输出值就只有0(恶性)和1(良性)两种，这就是离散的，也就是分类问题。

　　4.鸡尾酒宴问题

　　这个问题我一看到的时候就感觉非常有趣，说的是什么呢？在鸡尾酒宴上，屋子里坐满了人，大家同时都在说话，这是一个复杂的场景，我们将它进行简化到只有两个人，如图

　　由于两个人离麦克风的距离不同，所以麦克风接收到的声音的强度是不同的(这是我自己找的“结构”，并不是程序给定了“答案”，所以这也是一种无监督学习的算法)，但两段声音是叠加的。利用无监督学习的算法，我们就可以将两个人的声音分离出来。当我听到这个输出的结果的时候，我是整个人被惊艳到了，这是多么的智能啊！

　　5.单变量线性回归问题

　　这部分就以视频中的房价的例子来说明。首先说明这是一个监督学习(supervised learning)问题，因为我们给了“答案”：单变量、线性。推导过程我用手写方式展示：

以上就是我10月17日学习机器学习的笔记......